#python #unicode #utf-8
#python #Юникод #utf-8
Вопрос:
У нас есть некоторый текст, содержащий немецкие умляуты, представленные, например, с помощью ‘a’ КОМБИНИРОВАННЫЙ ДИАРЕЗИС ($ cc $ 88).
Есть идеи, как правильно преобразовать такой текст в utf8?
Комментарии:
1. Итак, у вас есть две кодовые точки или у вас есть какая-то закодированная форма? Выведите символ в поток UTF-8, и он будет закодирован. Но смотрите ответ Игнасио о нормализации. Вы, вероятно, хотите нормализовать для NFC.
Ответ №1:
Во-первых, если это еще не a unicode
, то расшифруйте его. Во-вторых, unicodedata.normalize()
. В-третьих, кодирование.
Комментарии:
1. В частности, вы хотели бы, чтобы он был в форме NFC, если вы его выводите. NFD чаще используется внутри.