Группируйте похожие сообщения об ошибках — NLP / машинное обучение python

#python #nlp #classification

#python #nlp #классификация

Вопрос:

У меня около 500 сообщений об ошибках в файле Excel, в котором я пытаюсь сгруппировать похожие сообщения об ошибках. Ниже приведены некоторые из примеров сообщений об ошибках.

  1. Неверное имя учетной записи
  2. Неверный номер учетной записи
  3. Дата закрытия предшествует дате открытия
  4. Дата окончания предшествует активной дате
  5. Имя учетной записи должно быть уникальным
  6. Номер учетной записи должен быть уникальным

Мое требование состоит в том, чтобы сгруппировать (или) классифицировать похожие сообщения об ошибках по группам.

Один из способов, который я пытался использовать до сих пор, — это использовать Doc2Vec для генерации векторов после предварительной обработки текста. Но я не уверен, как действовать с векторами и как группировать, используя векторный вывод.

Может кто-нибудь подсказать, как действовать дальше по этому поводу? Если есть какой-либо другой лучший способ сделать. Пожалуйста, предложите.

Комментарии:

1. Я не уверен, понял ли я ваш вопрос, у вас есть векторы ваших данных, но у вас нет меток, верно? если у вас нет меток, я не верю, что классификация имеет какой-либо смысл. Вам следует использовать кластеризацию. Если вы можете оценить номера своих групп (номер кластера), вы можете попробовать Kmeans , чтобы посмотреть, как это работает. Если вы не знаете количество кластеров, используйте кластеризацию снизу вверх или DBSCAN

2. ДА.. У меня нет меток.. Я сделал DBSCAN.. Но я не уверен, как понять вывод .. существуют ли какие-либо похожие руководства или примеры кода для DBSCAN?

3. Обычно вы должны посмотреть на данные, на кластеры и посмотреть, решает ли это вашу проблему и действительно ли выполняет вашу задачу. Зависит от того, четко ли вы определили задачу и знаете ли, чего хотите в конце. Если вы сделали это, глядя на результаты, может помочь. Для DBSCAN в Интернете есть множество примеров. Вот одно из случайных сообщений, которые я нашел через Google: medium.com/@elutins /…