ELKI показывает отрицательные значения в мерах парного подсчета

#cluster-analysis #k-means #elki

#кластерный анализ #k-средние #elki

Вопрос:

Когда я запускаю некоторые данные о коэффициентах кепстрала, сгенерированные из файлов .wav в ELKI с алгоритмом Kmeans k = 32 и max iter = 100, он выдает отрицательные значения для следующих мер подсчета пар. Jaccard = -3.3627 Отзыв = -3.3627 Ранд =-3.3627 и мера F1 = 2.8465 Я где-то искал диапазон этих мер, и они были (0,1). Я прогнал эти данные с несколькими другими алгоритмами и столкнулся с той же проблемой. Может кто-нибудь, пожалуйста, интерпретировать это?

Комментарии:

1. Этот вопрос, похоже, не по теме, потому что речь идет об интерпретации.

2. Доступны ли ваши данные? Какие у вас метки ? Какая версия ELKI?

Ответ №1:

Значения должны быть в диапазоне [0;1], но:

  • только если у вас есть полные метки (отсутствующие метки можно пропустить, но я не уверен, что наша реализация еще обрабатывает этот случай)
  • кластеризация должна быть полной, неперекрывающейся, четкой секционированием

Кроме того, когда кластеры вырождаются (в зависимости от ваших данных и заполнения, это может произойти с k-средними), могут быть пустые кластеры, и это снова может привести к нежелательным результатам при грамотной реализации этих мер.

Как вы маркировали свои данные?

Мы стараемся изо всех сил также правильно обрабатывать угловые случаи; но мы можем диагностировать и исправлять только то, что мы наблюдали и можем воспроизвести.