Преобразование текста, содержащего ОБЪЕДИНЯЮЩИЙ ДИАРЕЗИС, в utf-8

#python #unicode #utf-8

#python #Юникод #utf-8

Вопрос:

У нас есть некоторый текст, содержащий немецкие умляуты, представленные, например, с помощью ‘a’ КОМБИНИРОВАННЫЙ ДИАРЕЗИС ($ cc $ 88).

Есть идеи, как правильно преобразовать такой текст в utf8?

Комментарии:

1. Итак, у вас есть две кодовые точки или у вас есть какая-то закодированная форма? Выведите символ в поток UTF-8, и он будет закодирован. Но смотрите ответ Игнасио о нормализации. Вы, вероятно, хотите нормализовать для NFC.

Ответ №1:

Во-первых, если это еще не a unicode , то расшифруйте его. Во-вторых, unicodedata.normalize() . В-третьих, кодирование.

Комментарии:

1. В частности, вы хотели бы, чтобы он был в форме NFC, если вы его выводите. NFD чаще используется внутри.