Извлечение значения свойства из HTML, подобного текстовому корпусу

#nlp #nltk #etl

#nlp #nltk #etl

Вопрос:

У меня есть 200 МБ статей, взятых из газеты.

Структура этого текстового тела следующая:

  • Каждая статья заключена в <ext></ext> тег
  • Предложения статьи находятся внутри <p><s></s></p> тегов

Пример одной статьи:

 <ext id=12 cad="Caderno Especial" sec="nd" sem="94a">
<p>
<s> sentence.... </s>
...
<s> sentence.... </s>
</p>
<p>
<s> sentence.... </s>
...
<s> sentence.... </s>
</p>
</ext>
 

Шаблон повторяется, где id свойство уникально для каждой статьи (в диапазоне от 1 до 400000)

Я хотел бы извлечь содержимое cad свойства каждой статьи. Например, для приведенной выше статьи это было бы Caderno Especial . Итак, в конце я собираюсь создать таблицу SQL с одним столбцом, где каждая строка указывает значение cad для данной статьи. В таблице будет 400000 строк. Как я могу это сделать?

Комментарии:

1. Было бы полезно получить более подробную информацию. Это XML? Или просто теги в стиле XML? Если это первое, вам следует использовать анализатор XML. Если это последнее, вы можете определить регулярное выражение для быстрой идентификации cad поля и извлечения его содержимого.

2. Все данные находятся в текстовом файле с обычным текстом. Расширение файла равно «.0» (которого я никогда раньше не видел, на самом деле). Я мог бы открыть его с помощью блокнота. Так что я думаю, что это просто теги в стиле XML