Гистограмма в библиотеке обнаружения аномалий Deequ

#scala #data-quality #amazon-deequ

#scala #качество данных #amazon-deequ

Вопрос:

Можем ли мы использовать анализатор гистограмм для обнаружения аномалий?

Допустим, я хочу проверить изменение соотношения переменных в указанном столбце. Например, анализ гистограммы для столбца со значениями Male и Female выглядит примерно так (Male — 0.6) и (Female — 0.4). Теперь, если значение изменяется с этих на некоторые другие значения, это должно быть аномалией в данных. Я пробовал это, но не смог разобраться.

Можем ли мы достичь чего-то подобного в настоящее время?

Комментарии:

1. Вы находитесь не в том месте, чтобы получить свой ответ.

2. Итак, где я должен спросить об этом?

Ответ №1:

Для стратегии AnomalyDetectionStrategy требуется серия дублей.

Пока вы можете представить свои вычисления как проблему обнаружения одномерных аномалий, вы можете использовать deequ для этого. Например, вы могли бы использовать анализатор соответствия (вместо гистограммы) для вычисления частоты мужчин / женщин и ввода этой информации в детектор аномалий.