#standard-deviation #robust
#стандартное отклонение #надежный
Вопрос:
Мне нужны pandas для вычисления надежного стандартного отклонения
Сегодня я выполняю анализ выбросов при электрических измерениях в python и рефакторинг кода в среде pandas. Проблема, с которой я сталкиваюсь, заключается в вычислении стандартного отклонения. Если выбросы присутствуют в генеральной совокупности при вычислении std, результирующее значение слишком велико и связано с наличием выбросов. В моем исходном коде python я написал надежные функции среднего стандартного отклонения, чтобы вернуться к более нормальной совокупности, чтобы вычислить пределы выбросов. Обратите внимание, я также использую эту нормализованную совокупность для вычисления асимметрии и эксцесса, потому что на них сильно влияют выбросы.
То, что я рассматривал, — это нормализация совокупности с использованием 95% квантиля набора данных и вычисление оттуда для более высоких пределов выбросов. Кто-нибудь знает, работал ли кто-нибудь еще в сообществе pandas над надежными статистическими функциями. Если нет, я буду продвигаться вперед.
df[«#18.1355»].describe() количество 2694.000000 означает 1.808318 std 6.426645 мин 0.920686 25% 1.357991 50% 1.521781 75% 1.801604 максимальное имя 334.196900: #18.1355, dtype: float64
Обратите внимание, что намного больше значения max.
Стандартное отклонение нормализованной совокупности для приведенного выше измерения составляет ~ 0,8
Ответ №1:
Этот ответ не относится конкретно к pandas, но рассматривали ли вы возможность использования двухвариантного среднего значения? (см. Пример реализации http://docs.astropy.org/en/stable/api/astropy.stats.biweight_midvariance.html )