#python
#python
Вопрос:
У меня есть выходные графики, которые выглядят следующим образом:
Мой вопрос в том, есть ли простой способ для меня подсчитать количество точек в каждой из очевидных «линий» или «полос» частиц? Другими словами, мне нужно найти плотность каждой из полос отдельно. Большинство из них перекрываются, в чем и заключается моя проблема.
Я попытался указать пределы x и y, но опять же, в игру вступает перекрытие. Существующий код просто импортирует и выводит значения.
Комментарии:
1. Вы могли бы попробовать иерархическую кластеризацию , которая должна позволить вам группировать точки в каждой полосе, а затем выполнять анализ этих кластеров (например, подсчитывать точки)
2. Вместо строгих ограничений по x и y вы могли бы использовать линейные уравнения для разделения ваших кластеров. Определяя линии, разделяющие кластеры, вы можете проверить, находится ли ваша точка данных ниже одной линии и выше другой. К сожалению, вам придется определять линии вручную, поэтому вам может потребоваться более автоматизированное исправление.
Ответ №1:
Кен, спасибо за твой комментарий. Я пошел по этому пути, я обнаружил, что одиночная связь лучше всего подходит для типа кластеров, которые у меня есть. Мне также сначала пришлось найти коэффициент умножения для моих собственных данных, потому что кластеризация не удалась из-за перекрытия данных. С этими данными разные цвета представляют разные кластеры. Ось x дендрограммы помечена плотностями кластеров, но они не в порядке! Мне еще предстоит найти эффективный способ обойти это. Я вручную настроил дендрограмму, чтобы сначала создать 2 кластера, которые сообщили мне плотность первой оболочки (она создала 2 кластера, 1 из первой оболочки и 1 со всем остальным). Затем повторил это для 3,4 и т.д. Извините, если все это не имеет смысла! Здесь довольно поздно / рано.