Ошибка декодирования кодеков Python в Юникоде

#python #file-io #unicode #utf-8

#python #file-io #unicode #utf-8

Вопрос:

Я использовал модуль codecs для чтения текстового файла и извлечения из него информации. Мой код выглядит следующим образом:

 import codecs
handle = codecs.open('try.txt',encoding="utf-8")
f1 = handle.read()
# Do further stuff with f1
  

Однако это выдает мне следующую ошибку:

 UnicodeDecodeError: 'utf8' codec can't decode byte 0xea in position 628: invalid continuation byte
  

Кто-нибудь может мне помочь в этом? Заранее спасибо! 🙂

Комментарии:

1. Ваш входной файл имеет недопустимую кодировку UTF-8.

2. Есть ли способ пройти через это? Мне нужна версия файла в кодировке utf-8 для дальнейшей обработки. Или, что эквивалентно, я должен использовать другую кодировку?

3. Либо ваши данные повреждены (вам придется попытаться декодировать до поврежденной части, а затем снова начать декодирование после нее; природа UTF-8 позволяет вам сканировать следующий допустимый байт), либо вы выбрали неправильный кодек. Насколько вы уверены в том, какая кодировка использовалась для этого файла?

4. «Мне нужна версия файла в кодировке utf-8 для дальнейшей обработки» — вы имеете в виду, что хотите преобразовать в UTF-8, а не из ?