Как анализировать xml с html-тегами внутри xml-тегов

#java #xml

#java #xml

Вопрос:

У меня есть xml, который содержит html в xml-тегах, и я не могу его проанализировать.

Когда я начинаю анализировать xml, в теге str содержится html

введите описание изображения здесь

кто-нибудь может мне помочь в извлечении html со всеми тегами.

Комментарии:

1. Какой язык вы используете для анализа XML? PHP, JavaScript, …?

2. Пожалуйста, покажите, что вы пробовали. Кроме того, вставьте сам XML, а не его изображение. Я вообще не могу это прочитать.

3. Также, Рахул, пожалуйста, не добавляйте «Привет» в свои вопросы и не используйте подпись, «спасибо» или «любая помощь приветствуется». Это не дискуссионный форум, так что такого рода «разговорный» язык не нужен и фактически является просто шумом.

4. Не могли бы вы, пожалуйста, дать ссылку на изображение, на котором выделен не весь XML?

5. @mc10 я изменил изображение

Ответ №1:

Рекомендуется хранить XHTML в тегах CDATA ( <![CDATA[ и ]]> ), чтобы его можно было нормально извлекать:

 <str name="body">
      <![CDATA[<font face="arial" size="2"><ul><li><p align="justify">india’s first</p></li></ul></font>]]>
</str>
  

Ответ №2:

Проблема не в HTML, а в неправильном HTML. Если этот HTML у вас под рукой, убедитесь, что он соответствует XHTML, и анализатор xml обработает его как обычный xml. Однако вы можете в противном случае использовать такие инструменты, как «HTML Tidy», чтобы исправить ваш HTML и использовать HTML-анализаторы. Например: http://www.codeproject.com/KB/dotnet/apmilhtml.aspx