Получение ошибки ‘utf-8’ кодек не может декодировать байт 0xa0 в позиции 15456: недопустимый начальный байт при попытке прочитать файл csv на арабском языке

#python #pandas #csv

#python #pandas #csv

Вопрос:

Я пытаюсь прочитать файл csv, написанный на арабском языке, это код, который я использую:

 
data = pd.read_csv("/Users/User/Downloads/AJGT.csv",encoding='utf-8')

sentiment = np.array(data.drop('Feed', axis =1).values)
feed = np.array(data.drop('Sentiment', axis =1).values)
print(sentiment)
print(feed)
 

однако я получаю следующую ошибку

'utf-8' codec can't decode byte 0xa0 in position 15456: invalid start byte

Я был бы признателен за любую помощь, спасибо!

Ответ №1:

Попробуйте encoding='ISO-8859-1' . Это сработало для меня, так как я получил аналогичную ошибку.

Комментарии:

1. Спасибо, ошибка исчезла, однако я получаю ‘???????????’ вместо арабского текста в выводе @coco18

2. Посмотрите в списке языков, которые поддерживаются стандартом кодирования