Как я могу использовать Python для разбора html-тегов в символы Юникода

#python #html #xml #parsing

#python #HTML #xml #синтаксический анализ

Вопрос:

У меня есть XML-документ с разметкой html в некоторых текстовых элементах, подобных этому:

 <my-element><p>This is an XML element<br/>
with HTML markup and chemical formulas <br/>
like water H<sub>2</sub>O, scientific notation like 1.32 x 10<sup>4</sup>, and other super- and <br/>
sub-script c<sub>h</sub><sup>a</sup><sub>r</sub><sup>a</sup>c<sub>t</sup><sub>e</sub><sup>r</sup><sub>s</sub> <sup>i</sup><sup>n</sup> Unicode.</p></my-element>
  

Я использую xtree от lxml. Анализатор имеет два режима xml и html, но я не нашел способа проанализировать полную текстовую строку (абзац) для отображения в виде символов Юникода, подобных этому:

 This is an element
with HTML markup and chemical formulas 
like water H₂O, scientific notation like 1.32 x 10³, and all super- and 
sub-script cₕₐᵣₐcₜₑᵣₛ ⁱⁿ Unicode.
  

Есть ли какая-нибудь другая библиотека, которая может помочь?

Комментарии:

1. Набор доступных индексов Unicode super amp; subscripts, по-видимому, неполный: en.wikipedia.org/wiki/Unicode_subscripts_and_superscripts Таким образом, независимо от языка программирования, вы не сможете представить все вложенные и надстрочные индексы, которые вы можете отобразить с помощью html.

2. Спасибо, Себастьян, это полезно. Кто-нибудь знает какие-либо библиотеки Python, которые выполняют преобразование для существующих символов Юникода, или мне придется использовать свои собственные?