Разница между двумя кластерами

#data-mining #hierarchical-clustering

#интеллектуальный анализ данных #иерархический-кластеризация

Вопрос:

Итак, мне нужно кое-что сделать, но мне нужен совет, как это сделать. Мои точки данных: 1,2,9,6,4, и мне нужно вычислить расстояние между кластерами. Мне нужно для вас евклидово расстояние.

Мой ответ был: {1,1} = 0. {1,2}=1 , {1,9} = 8. Я делаю правильно или нет?

Комментарии:

1. Евклидово расстояние для одномерных данных не имеет смысла. В вашем вопросе что-то не так.

2. Так что да, 2-1 = 1 и 9-1 = 8, но я почти уверен, что ваш вопрос не был «в чем разница между 2 и 1».

3. Ребята, вопрос дал эти точки данных: 1, 2, 9, 6, 4 и он хочет от меня вычислить расстояние между двумя кластерами с евклидовым расстоянием

Ответ №1:

Итак, у вас есть 5 точек данных, верно?

формулы должны быть такими:

 square root of ((1-1)²)  = 0
square root of ((1-2)²)  = 1
square root of ((1-9)²)  = 8
 

… так что да, вы правы.

Формула евклидова расстояния

Комментарии:

1. Спасибо. После этого мне нужно найти, какие кластеры объединены в новый кластер? Как это сделать? у вас есть какие-либо идеи?

2. @ipo как будет работать k-nearestuneighbor для кластеризации?

3. Обратите внимание, что квадратный корень и квадрат являются избыточными, они сводятся к простому abs(a-b) в одномерном случае. Вот почему евклидово не имеет особого смысла для данных 1 dim.

4. Для этого есть разные способы. Например, алгоритм k-ближайшего соседа или k-средних. Вы вычисляете евклидово расстояние между всеми вашими точками данных для k-ближайшего соседа и смотрите, где «накапливается» количество k точек данных (вы решаете, насколько велико k). Для алгоритма k-средних вы выбираете новые точки данных, называемые прототипами, и вычисляете расстояние между этими прототипами (минимум 2, потому что 1 не имеет смысла) и вашими точками данных. Какой бы алгоритм вы ни выбрали, результат будет почти одинаковым: точки данных принадлежат кластеру, где расстояние наименьшее.

5. @Anony-Mousse Да, ты прав. В обычном случае у вас есть более 1 dim для ваших точек данных — в этом случае вам понадобится квадратный корень. Для 1 dim это бессмысленно.