#nlp #nltk #etl
#nlp #nltk #etl
Вопрос:
У меня есть 200 МБ статей, взятых из газеты.
Структура этого текстового тела следующая:
- Каждая статья заключена в
<ext></ext>
тег - Предложения статьи находятся внутри
<p><s></s></p>
тегов
Пример одной статьи:
<ext id=12 cad="Caderno Especial" sec="nd" sem="94a">
<p>
<s> sentence.... </s>
...
<s> sentence.... </s>
</p>
<p>
<s> sentence.... </s>
...
<s> sentence.... </s>
</p>
</ext>
Шаблон повторяется, где id
свойство уникально для каждой статьи (в диапазоне от 1 до 400000)
Я хотел бы извлечь содержимое cad
свойства каждой статьи. Например, для приведенной выше статьи это было бы Caderno Especial
. Итак, в конце я собираюсь создать таблицу SQL с одним столбцом, где каждая строка указывает значение cad
для данной статьи. В таблице будет 400000 строк. Как я могу это сделать?
Комментарии:
1. Было бы полезно получить более подробную информацию. Это XML? Или просто теги в стиле XML? Если это первое, вам следует использовать анализатор XML. Если это последнее, вы можете определить регулярное выражение для быстрой идентификации
cad
поля и извлечения его содержимого.2. Все данные находятся в текстовом файле с обычным текстом. Расширение файла равно «.0» (которого я никогда раньше не видел, на самом деле). Я мог бы открыть его с помощью блокнота. Так что я думаю, что это просто теги в стиле XML