#python #linux #pandas
Вопрос:
Я использую ноутбук Jupyter (google colab), чтобы попытаться извлечь данные из файла .7z в фрейм данных pandas с помощью команд Linux. Данные взяты из http://untroubled.org/spam/ . Я хочу извлечь только данные из файла 2020-01.7 z. до сих пор у меня было,
!wget http://untroubled.org/spam/2020-01.7z
!7z x 2020-01.7z
import pandas as pd
import py7zr
archive = py7zr.SevenZipFile('2020-01.7z', mode='r')
archive.extractall(path="/tmp")
with open ('2020-01.7z', 'r') as myfile:
myfile.read()
mydf = pd.DataFrame(myfile)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbc in position 2: invalid
start byte
Я не совсем уверен, что означает «/tmp». Я знаю, что есть способ сделать это, просто у меня пока недостаточно понимания этих команд и того, как их использовать. Любая помощь будет признательна
Комментарии:
1. Вы нашли решение этой проблемы? @Cflan99