Равенство двух выборок: могу ли я сохранить статистику распределения и загрузить их для сравнения с новыми данными

#python #distribution #kolmogorov-smirnov

Вопрос:

Я хочу провести некоторые статистические сравнения между наборами поездов и тестов, более конкретно, чтобы сравнить сходство распределений между функциями. Предположим, мы сделаем это с помощью теста Колмогорова-Сминова с двумя выборками. Но способ, которым я хочу выполнить такой анализ, состоит в том, чтобы сначала вычислить часть статистики по данным поезда, сохранить ее на диск, а затем вызвать ее только тогда, когда поступят новые данные, чтобы использовать их с тестовыми данными. Поэтому я не хочу загружать весь фрейм данных поезда для расчета теста на сходство распределения с двумя выборками. Возможно ли это каким-то образом? Если не с тестом KS, может быть, с каким-то другим, скажем, расхождением кулбэка лейблера. Спасибо.

Ответ №1:

Ну, вот как бы я к этому подошел. Я бы построил CDF на основе набора данных train. Затем этот CDF будет сохранен на диске и при необходимости вызван

Позже я бы запустил пример vs CDF K-S test, скажем, с помощью теста с вызываемым cdf (второй параметр).

Этот вызываемый CDF должен быть тем, который вы получили из набора.