Как извлечь контекст из (одного) предложения?

#python #machine-learning #nlp

#python #машинное обучение #nlp

Вопрос:

Я довольно новичок в NLP,

Я хочу реализовать алгоритм кластеризации на основе Python, он будет иметь :

  • Извлечение контекста / темы — из инструкции Title (вероятно, будет содержать не более 6-7 слов)

  • Алгоритм кластеризации

Итак, проблема в том, что у меня есть куча операторов (20 операторов * 5-6 слов на оператор = 100-120 слов), все они связаны с оператором Title. И алгоритм должен быть способен объединять их в группы.

Для (1) — В качестве входных данных сначала у меня будет заголовок, из этого заголовка я хочу извлечь различные темы, например :

ЗАГОЛОВОК: «Проблема на производственной сборочной линии» — Из этого я хочу извлечь что-то вроде

1. Механические проблемы

2. Проблемы с электричеством

3. Управление линейщиками

4. Проблемы с управлением цепочками поставок……

И используйте эти извлеченные разделы для объединения этих утверждений. Я могу выполнить вторую задачу кластеризации, но как мне извлечь темы из одного утверждения, которое содержит не более 6-7 слов?

Язык: Английский

Есть идеи, как решить первую проблему??

Ответ №1:

Ну, короткая версия такова, что вам нужно больше данных. Вы можете создать тематическую модель (я бы рекомендовал заглянуть в LDA — problably guidedLDA), но вам определенно понадобится больше … ну, всего. Во-первых, 6 разных документов далеко не достаточно. Во-вторых, 6 слов / документ также недостаточно. Есть ли какие-либо причины, по которым вы хотите извлечь тему только из названия, а не из всего документа — потому что, по крайней мере, в полном документе будет больше слов?

Комментарии:

1. Спасибо за ответ. Поскольку на основе тем, извлеченных из заголовка, конечному пользователю должны быть предложены теги для выбора. Выбранные теги сузят список классов, среди которых необходимо выполнить кластеризацию. Но да, альтернативой может быть использование всего текста (ЗАГОЛОВОК ИНСТРУКЦИИ) для определения классов. Я изучил анализаторы зависимостей ( nlp.stanford.edu/software/lex-parser.shtml ) а также кое-что, что на самом деле не отвечает на мой вопрос.

2. Я бы использовал весь текст, на самом деле вы, похоже, не приводите веской причины использовать только заголовки. Текст, по крайней мере, дает больше контекста. Но реально, вы ничего не добьетесь, имея всего 6 документов. Вам нужны данные. Тем не менее, загляните в GUIDEDDA .

3. Спасибо. Я посмотрю на это.