Извлечение файла .7z в фрейм данных Pandas

#python #linux #pandas

Вопрос:

Я использую ноутбук Jupyter (google colab), чтобы попытаться извлечь данные из файла .7z в фрейм данных pandas с помощью команд Linux. Данные взяты из http://untroubled.org/spam/ . Я хочу извлечь только данные из файла 2020-01.7 z. до сих пор у меня было,

 !wget http://untroubled.org/spam/2020-01.7z
!7z x 2020-01.7z
import pandas as pd
import py7zr     
archive = py7zr.SevenZipFile('2020-01.7z', mode='r')
archive.extractall(path="/tmp")
with open ('2020-01.7z', 'r') as myfile:
  myfile.read()

mydf = pd.DataFrame(myfile)
 


UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbc in position 2: invalid 
start byte
 

Я не совсем уверен, что означает «/tmp». Я знаю, что есть способ сделать это, просто у меня пока недостаточно понимания этих команд и того, как их использовать. Любая помощь будет признательна

Комментарии:

1. Вы нашли решение этой проблемы? @Cflan99