#python #join #scikit-learn #k-means #feature-selection
Вопрос:
Существуют две таблицы R (первичный ключ: R_key) и M (первичный ключ: M_key), к которым присоединяется M_key. Я хочу выполнить кластеризацию объектов в R (кроме R_key) вместе с выбором объектов из таблицы M в 6 различных кластеров.
Схема для строки R (количество уникальных значений): *R_key (700k), R1 (2), R2(2), R3(5), R4(5), M_key(100)* where *R1* through *R4* are discrete values
Схема для строки M: *M_key*(100 unique values), *M1, M2, M3* where *M1, M2, M3* are continuous values
Моя конечная цель-получить шесть кластеров, в которых кластер C1 может выглядеть следующим образом: R1 = 0, R2 = 1, R3 = 3, R4 = 4, M_key = {97,98,99,100}. Для кластеризации, включающей только таблицу R без столбца M_key, я использовал алгоритм k-режимов из библиотеки PyPI, который аналогичен алгоритму k-средних, но используется для категориальных данных.
Однако для этого используется вся таблица R вместе с R_key, чтобы объединить их в один из шести кластеров. В настоящее время я хочу только features *R1 ... R4 M_key* to be labelled into clusters 1 ... 6
. Я был бы признателен за любое решение или идеи для решения моей проблемы.
Спасибо!