#cluster-analysis #data-mining #topic-modeling #unsupervised-learning #doc2vec
#кластерный анализ #интеллектуальный анализ данных #тема-моделирование #обучение без учителя #doc2vec
Вопрос:
Я должен предсказать на основе данных, какая команда по ликвидации последствий стихийных бедствий должна была отреагировать на аварию — полиция / Спасатели / пожарная команда / Скорая помощь и т. Д.
Проблема состоит из нескольких частей —
- Уникальный идентификатор — (комбинация чисел)
- Текстовые данные из нескольких предложений для каждого идентификатора,
пример: причиненный ущерб вызван градом. Люди не следовали инструкциям по спасению и были небрежны. Ущерб высок. -Всего 50 тыс. разных идентификаторов с текстом
- Несколько структурированных полей данных, таких как местоположение, тип, серьезность и т.д. — всего 400 переменных
Метод решения проблемы:
- Взяты текстовые данные и идентификатор и вычислены TFIDF, косинусное сходство, Doc2Vec, тематическая модель
Теперь мне нужно объединить структурированные и неструктурированные данные для создания кластеров. Поскольку это неконтролируемое обучение, не уверен, как объединить все вышеперечисленное, чтобы извлечь какой-то смысл из данных.
В общей сложности у меня сейчас — 400 переменных, значение 10000 баллов из TFIDF, но я:
- Не уверен, как связать косинусное сходство с фреймом данных
- Не уверен, как использовать Doc2Vec для кластера
- Не уверен, как использовать тематические модели
Конечная цель — создать кластеры, которые можно изучить, чтобы отличить, что если идентификатор содержит определенные ключевые слова, он должен перейти к конкретной управленческой команде — например: кража / убийство / ограбление — все должно быть одним кластером, и я могу связать полицию с этим кластером
Комментарии:
1. Привет @Dr.Chuck и добро пожаловать в SO 🙂 Мне непонятно, о чем вы спрашиваете, не могли бы вы попытаться перефразировать свой вопрос?
2. вопросы переформулированы. Цель состоит в том, чтобы создавать кластеры, используя структурированные и неструктурированные данные. Целевой переменной не существует, отсюда и неконтролируемое обучение.
3. Вы уверены, что вам нужно создавать кластеры в качестве промежуточного шага? Если конечная цель — «исходя из этой информации, классифицировать лучшего респондента», и у вас действительно есть достоверная историческая информация о надлежащем респонденте, вы можете просто захотеть выполнить контролируемую классификацию. (Конечно, вам, возможно, придется быть осторожным и не включать в запись последующие уточнения, которые явно намекают или раскрывают «правильный ответ».)
4. @gojomo да, я почти уверен, что мне нужно создавать кластеры. Думайте об этом так, что исторические ответы неверны. Моя цель здесь состоит в том, чтобы сравнить то, что произошло в прошлом, с тем, что должно было произойти.
5. @gojomo, еще не пробовал, сейчас работаю со структурированными данными, может потребоваться неделя, чтобы получить возможность запускать их оба. Сообщит вам, как только он будет завершен