Неконтролируемое обучение, различные методы и запросы

#cluster-analysis #data-mining #topic-modeling #unsupervised-learning #doc2vec

#кластерный анализ #интеллектуальный анализ данных #тема-моделирование #обучение без учителя #doc2vec

Вопрос:

Я должен предсказать на основе данных, какая команда по ликвидации последствий стихийных бедствий должна была отреагировать на аварию — полиция / Спасатели / пожарная команда / Скорая помощь и т. Д.

Проблема состоит из нескольких частей —

  1. Уникальный идентификатор — (комбинация чисел)
  2. Текстовые данные из нескольких предложений для каждого идентификатора,

    пример: причиненный ущерб вызван градом. Люди не следовали инструкциям по спасению и были небрежны. Ущерб высок. -Всего 50 тыс. разных идентификаторов с текстом

  3. Несколько структурированных полей данных, таких как местоположение, тип, серьезность и т.д. — всего 400 переменных

Метод решения проблемы:

  1. Взяты текстовые данные и идентификатор и вычислены TFIDF, косинусное сходство, Doc2Vec, тематическая модель

Теперь мне нужно объединить структурированные и неструктурированные данные для создания кластеров. Поскольку это неконтролируемое обучение, не уверен, как объединить все вышеперечисленное, чтобы извлечь какой-то смысл из данных.

В общей сложности у меня сейчас — 400 переменных, значение 10000 баллов из TFIDF, но я:

  • Не уверен, как связать косинусное сходство с фреймом данных
  • Не уверен, как использовать Doc2Vec для кластера
  • Не уверен, как использовать тематические модели

Конечная цель — создать кластеры, которые можно изучить, чтобы отличить, что если идентификатор содержит определенные ключевые слова, он должен перейти к конкретной управленческой команде — например: кража / убийство / ограбление — все должно быть одним кластером, и я могу связать полицию с этим кластером

Комментарии:

1. Привет @Dr.Chuck и добро пожаловать в SO 🙂 Мне непонятно, о чем вы спрашиваете, не могли бы вы попытаться перефразировать свой вопрос?

2. вопросы переформулированы. Цель состоит в том, чтобы создавать кластеры, используя структурированные и неструктурированные данные. Целевой переменной не существует, отсюда и неконтролируемое обучение.

3. Вы уверены, что вам нужно создавать кластеры в качестве промежуточного шага? Если конечная цель — «исходя из этой информации, классифицировать лучшего респондента», и у вас действительно есть достоверная историческая информация о надлежащем респонденте, вы можете просто захотеть выполнить контролируемую классификацию. (Конечно, вам, возможно, придется быть осторожным и не включать в запись последующие уточнения, которые явно намекают или раскрывают «правильный ответ».)

4. @gojomo да, я почти уверен, что мне нужно создавать кластеры. Думайте об этом так, что исторические ответы неверны. Моя цель здесь состоит в том, чтобы сравнить то, что произошло в прошлом, с тем, что должно было произойти.

5. @gojomo, еще не пробовал, сейчас работаю со структурированными данными, может потребоваться неделя, чтобы получить возможность запускать их оба. Сообщит вам, как только он будет завершен