#pandas
#панды
Вопрос:
Я пытаюсь прочитать файл .txt, используя pandas, у которого есть разделитель ^
типов.
Я продолжаю сталкиваться с ошибкой UnicodeDecodeError: 'utf-8' codec can't decode byte 0xf8 in position 7: invalid start byte
пытался использовать pd.read_csv(txt.file , sep = '^' , header = None)
txt.file
не имеет заголовков ,
Я пропустил аргумент?
Обновить:
13065^000000000^aaaaa^test , conditions^123455^^01.01.01:Date^^^^^^ 77502^000000123^aaaaa^test, conditions^123456^^^^^^^^
кажется sep ^
, в каждой строке есть неравномерное количество.
Как я мог исправить?
Комментарии:
1. Я создал небольшой текстовый файл с разделителем ^ и успешно прочитал его с вашим кодом read_csv. Итак, проблема не в ^ sperator . У вас, безусловно, есть недопустимый символ в вашем txt-файле, который вызывает ошибку (как объясняется в сообщении об ошибке).
2. хорошо, спасибо. Если некоторые данные разделены несколькими
^^^
, это вызовет ошибку?3. правильна ли кодировка файла? если это файл, созданный Windows, это может быть cp252
4. @JamesCook Между 2 разделителями ничего не должно быть (пропущенные значения дадут значения NaN). Единственное, что обязательно, это иметь одинаковое количество разделителей в каждой строке.
5. Проблема, вероятно, в кодировке, поскольку в ошибке говорится, что pandas не удалось декодировать байт из ваших данных. Вы можете либо поделиться образцом своих данных, либо попробовать другие кодировки, перечисленные здесь