#python #nlp #classification
#python #nlp #классификация
Вопрос:
У меня около 500 сообщений об ошибках в файле Excel, в котором я пытаюсь сгруппировать похожие сообщения об ошибках. Ниже приведены некоторые из примеров сообщений об ошибках.
- Неверное имя учетной записи
- Неверный номер учетной записи
- Дата закрытия предшествует дате открытия
- Дата окончания предшествует активной дате
- Имя учетной записи должно быть уникальным
- Номер учетной записи должен быть уникальным
Мое требование состоит в том, чтобы сгруппировать (или) классифицировать похожие сообщения об ошибках по группам.
Один из способов, который я пытался использовать до сих пор, — это использовать Doc2Vec для генерации векторов после предварительной обработки текста. Но я не уверен, как действовать с векторами и как группировать, используя векторный вывод.
Может кто-нибудь подсказать, как действовать дальше по этому поводу? Если есть какой-либо другой лучший способ сделать. Пожалуйста, предложите.
Комментарии:
1. Я не уверен, понял ли я ваш вопрос, у вас есть векторы ваших данных, но у вас нет меток, верно? если у вас нет меток, я не верю, что классификация имеет какой-либо смысл. Вам следует использовать кластеризацию. Если вы можете оценить номера своих групп (номер кластера), вы можете попробовать Kmeans , чтобы посмотреть, как это работает. Если вы не знаете количество кластеров, используйте кластеризацию снизу вверх или DBSCAN
2. ДА.. У меня нет меток.. Я сделал DBSCAN.. Но я не уверен, как понять вывод .. существуют ли какие-либо похожие руководства или примеры кода для DBSCAN?
3. Обычно вы должны посмотреть на данные, на кластеры и посмотреть, решает ли это вашу проблему и действительно ли выполняет вашу задачу. Зависит от того, четко ли вы определили задачу и знаете ли, чего хотите в конце. Если вы сделали это, глядя на результаты, может помочь. Для DBSCAN в Интернете есть множество примеров. Вот одно из случайных сообщений, которые я нашел через Google: medium.com/@elutins /…