K- означает производительность

#python #scikit-learn #cluster-analysis #k-means #unsupervised-learning

#python #scikit-учиться #кластерный анализ #k-означает #обучение без учителя

Вопрос:

У меня есть большой набор данных, в котором каждый образец имеет определенный номер класса от 0 до 8. Я использовал алгоритм K-means из пакета sklearn python. Результат K-means отличается, когда я запускаю коды несколько раз. Например, 246-й образец принадлежит кластеру 3 в первом запуске, и он принадлежит кластеру 0 во втором запуске. Я также прикрепил изображение для вашего рассмотрения.

Я думаю, это из-за случайной инициализации для кластерных центров, но мне нужно иметь постоянный результат в нескольких запусках. Как я могу это исправить? введите описание изображения здесь

Комментарии:

1. Вы уверены, что cluster_number 3 и 0 не совпадают? kmeans.cluster_centers_

2. Абсолютно они одинаковы. Но я хочу вычислить производительность k-means, сравнив правильный идентификатор кластера и идентификатор кластера k-means, и поэтому мне нужен стабильный результат для остальной части моего кода.

3. ну, их никогда не будет или просто случайно, поскольку алгоритм начинается с случайного размещения центроидов, а затем оптимизирует их положение.

Ответ №1:

Количество кластеров не является реальными данными, это случайное число для отличающегося кластера один от одного. Тогда это не для создания стабильного числа.

Чтобы узнать реальный тип класса, необходимо связать известный класс и мнемонический номер.

Ваш образец:

1: 246 — это # 3

2 : 246 — # 0

Вам нужно дать имя [246]

Комментарии:

1. Да, я также упомянул вашу точку зрения в своем посте. Но мне нужно рассчитать производительность k-means по правильной метке каждого образца, и мне нужен стабильный результат. Знаете ли вы, как я могу рассчитать производительность k-means, указав правильный идентификатор класса для каждого образца?

2. На самом деле, не имеет значения, какая это метка, если соответствующие идентификаторы 0 и 3 одинаковы в обоих прогонах. измерение производительности — еще одна проблема, поскольку она не контролируется, это намного сложнее. для этого вы можете проверить оценку силуэта. но в реальной жизни в основном это основано на вашем business.dzone.com/articles /.

3. Стабильный результат — классификация и мнемоническое число. Ваш вопрос в том, как получить имя (тип) класса. Это может быть связано с получением числа из текущего соответствия с известными образцами. Это комбинация классификации и обучения

4. Ассоциирование: ваш образец: 246 — # 3 246 — # 0. — это ваш ответ