#cluster-analysis #k-means #elki
#кластерный анализ #k-средние #elki
Вопрос:
Когда я запускаю некоторые данные о коэффициентах кепстрала, сгенерированные из файлов .wav в ELKI с алгоритмом Kmeans k = 32 и max iter = 100, он выдает отрицательные значения для следующих мер подсчета пар. Jaccard = -3.3627 Отзыв = -3.3627 Ранд =-3.3627 и мера F1 = 2.8465 Я где-то искал диапазон этих мер, и они были (0,1). Я прогнал эти данные с несколькими другими алгоритмами и столкнулся с той же проблемой. Может кто-нибудь, пожалуйста, интерпретировать это?
Комментарии:
1. Этот вопрос, похоже, не по теме, потому что речь идет об интерпретации.
2. Доступны ли ваши данные? Какие у вас метки ? Какая версия ELKI?
Ответ №1:
Значения должны быть в диапазоне [0;1], но:
- только если у вас есть полные метки (отсутствующие метки можно пропустить, но я не уверен, что наша реализация еще обрабатывает этот случай)
- кластеризация должна быть полной, неперекрывающейся, четкой секционированием
Кроме того, когда кластеры вырождаются (в зависимости от ваших данных и заполнения, это может произойти с k-средними), могут быть пустые кластеры, и это снова может привести к нежелательным результатам при грамотной реализации этих мер.
Как вы маркировали свои данные?
Мы стараемся изо всех сил также правильно обрабатывать угловые случаи; но мы можем диагностировать и исправлять только то, что мы наблюдали и можем воспроизвести.