Как прочитать XML-файл, который плохо сформирован?

#xml-parsing

#xml-синтаксический анализ

Вопрос:

Я пытаюсь прочитать XML-файл с помощью xml.etree.ElementTree выдает ошибку, когда достигает определенной строки файла. Я предполагал, что это обычный XML-файл. пожалуйста, помогите мне, как я могу это решить?

 xml_file =ET.parse("/Users/arash/project/my_project/extracting_features/TraceData.log").getroot()
 

Это часть моего файла, которая в строке 56526 возвращает мне сообщение об ошибке с недопустимым токеном, неправильно сформированным. Не знаю, почему это так, единственное отличие в этой строке заключается в том, что это новый тег с некоторыми новыми атрибутами, добавленными в файл. любая помощь была бы признательна

Комментарии:

1. Пожалуйста, отредактируйте свой вопрос и добавьте фактический xml, а не изображение.

2. @JackFleeting спасибо, фактический файл очень большой для отслеживания, он составляет около 12 МБ. вот почему я просто отправил часть файла в виде картинки.

3. Неправильно сформированные XML- файлы недопустимы. Очистите XML-файл другим инструментом перед его загрузкой. XML является строгим (а не HTML, чьи анализаторы оптимизированы для понимания частично недействительных файлов).

4. @zx485 спасибо за ваш ответ. Есть ли какой-либо способ заставить cElementTree понять, что игнорирует эту часть файла? потому что мне вообще не нужна эта часть XML-файла. файл содержит 173370 строк, поэтому в нем сложно изменить некоторые части.

5. @zx485 <Throttle Pcts/> это тег, из-за которого в cElementTree возникает ошибка неправильной формы.