панды читают .txt-документ с определенным разделителем

#pandas

#панды

Вопрос:

Я пытаюсь прочитать файл .txt, используя pandas, у которого есть разделитель ^ типов.

Я продолжаю сталкиваться с ошибкой UnicodeDecodeError: 'utf-8' codec can't decode byte 0xf8 in position 7: invalid start byte

пытался использовать pd.read_csv(txt.file , sep = '^' , header = None)

txt.file не имеет заголовков ,

Я пропустил аргумент?

Обновить:

13065^000000000^aaaaa^test , conditions^123455^^01.01.01:Date^^^^^^ 77502^000000123^aaaaa^test, conditions^123456^^^^^^^^

кажется sep ^ , в каждой строке есть неравномерное количество.

Как я мог исправить?

Комментарии:

1. Я создал небольшой текстовый файл с разделителем ^ и успешно прочитал его с вашим кодом read_csv. Итак, проблема не в ^ sperator . У вас, безусловно, есть недопустимый символ в вашем txt-файле, который вызывает ошибку (как объясняется в сообщении об ошибке).

2. хорошо, спасибо. Если некоторые данные разделены несколькими ^^^ , это вызовет ошибку?

3. правильна ли кодировка файла? если это файл, созданный Windows, это может быть cp252

4. @JamesCook Между 2 разделителями ничего не должно быть (пропущенные значения дадут значения NaN). Единственное, что обязательно, это иметь одинаковое количество разделителей в каждой строке.

5. Проблема, вероятно, в кодировке, поскольку в ошибке говорится, что pandas не удалось декодировать байт из ваших данных. Вы можете либо поделиться образцом своих данных, либо попробовать другие кодировки, перечисленные здесь