Выбросы алгоритма DBSCAN

#outliers #dbscan

#выбросы #dbscan

Вопрос:

В алгоритме DBSCAN выбросы часто отбрасываются как шум, но в некоторых приложениях эти зашумленные данные могут быть более интересными, чем более регулярно встречающиеся. почему?

Ответ №1:

Точки, помеченные как выбросы, не отбрасываются как таковые, это просто точки, которых нет ни в одном кластере. Вы все еще можете проверить набор некластеризованных точек и попытаться интерпретировать их.

DBSCAN предназначен для выдачи кластеров без каких-либо знаний о том, сколько существует кластеров или какой они формы. Это достигается путем итеративного расширения кластеров из начальных точек в достаточно плотных регионах. Выбросы — это просто точки, которые находятся в малонаселенных регионах (как определено параметрами eps и MinPoints).

На практике требуется некоторая осторожность при выборе параметров, которые не будут включать эти выбросы. Если они включены в кластеры, они часто действуют как мост между кластерами и приводят к их объединению в аналитически бесполезный большой двоичный объект.

Ответ №2:

Точки кластера похожи. Они обладают одинаковыми свойствами, рассказывают одну и ту же историю и могут быть избыточными.

Точки шума (DBSCAN не очень хорош в обнаружении фактических выбросов!) — это все те точки данных, которые не кластеризуются. Вы даже можете считать эти точки данных обычными данными, потому что они не кластеризуются.

Для обнаружения фактических выбросов (ошибок или особо интересных объектов) используйте специализированные алгоритмы обнаружения выбросов.