Как построить кластеры K-средних в двоичном формате?

#python #binary #cluster-analysis #geospatial #k-means

#python #двоичный #кластерный анализ #геопространственный #k-means

Вопрос:

Я хочу создать кластер K-средних для больших геопространственных данных. Чтобы повысить производительность, у меня есть идея создавать кластеры в двоичном формате, то есть первоначально фрейм данных будет разделен на 2 кластера (например: c1, c2), а 1-й кластер (c1) будет разделен на 2 (c3, c4) и кластер 2будет разделен на (c5, c6). Таким образом, количество уровней может быть задано в качестве входных данных для функции.. Есть идеи, как это можно реализовать на Python? Есть ли какая-либо встроенная функция или статьи, как этого можно достичь?

Комментарии:

1. Технически, вы могли бы просто создавать свои кластеры рекурсивно. Но я бы спросил себя: 1) Вы уверены, что алгоритм k-средних выигрывает от этого (вы бы умножили ordo на log (N)) 2) Уверены ли вы, основываясь на предварительном знании данных, что это дает желаемый результат?

2. Google говорит, что k-означает O (N), поэтому ваше решение будет O (N log (N)), то есть оно будет работать хуже, если я не пропущу какую-то информацию.