#data-mining #hierarchical-clustering
#интеллектуальный анализ данных #иерархический-кластеризация
Вопрос:
Итак, мне нужно кое-что сделать, но мне нужен совет, как это сделать. Мои точки данных: 1,2,9,6,4, и мне нужно вычислить расстояние между кластерами. Мне нужно для вас евклидово расстояние.
Мой ответ был: {1,1} = 0. {1,2}=1 , {1,9} = 8. Я делаю правильно или нет?
Комментарии:
1. Евклидово расстояние для одномерных данных не имеет смысла. В вашем вопросе что-то не так.
2. Так что да, 2-1 = 1 и 9-1 = 8, но я почти уверен, что ваш вопрос не был «в чем разница между 2 и 1».
3. Ребята, вопрос дал эти точки данных: 1, 2, 9, 6, 4 и он хочет от меня вычислить расстояние между двумя кластерами с евклидовым расстоянием
Ответ №1:
Итак, у вас есть 5 точек данных, верно?
формулы должны быть такими:
square root of ((1-1)²) = 0
square root of ((1-2)²) = 1
square root of ((1-9)²) = 8
… так что да, вы правы.
Комментарии:
1. Спасибо. После этого мне нужно найти, какие кластеры объединены в новый кластер? Как это сделать? у вас есть какие-либо идеи?
2. @ipo как будет работать k-nearestuneighbor для кластеризации?
3. Обратите внимание, что квадратный корень и квадрат являются избыточными, они сводятся к простому
abs(a-b)
в одномерном случае. Вот почему евклидово не имеет особого смысла для данных 1 dim.4. Для этого есть разные способы. Например, алгоритм k-ближайшего соседа или k-средних. Вы вычисляете евклидово расстояние между всеми вашими точками данных для k-ближайшего соседа и смотрите, где «накапливается» количество k точек данных (вы решаете, насколько велико k). Для алгоритма k-средних вы выбираете новые точки данных, называемые прототипами, и вычисляете расстояние между этими прототипами (минимум 2, потому что 1 не имеет смысла) и вашими точками данных. Какой бы алгоритм вы ни выбрали, результат будет почти одинаковым: точки данных принадлежат кластеру, где расстояние наименьшее.
5. @Anony-Mousse Да, ты прав. В обычном случае у вас есть более 1 dim для ваших точек данных — в этом случае вам понадобится квадратный корень. Для 1 dim это бессмысленно.