#python #distribution #kolmogorov-smirnov
Вопрос:
Я хочу провести некоторые статистические сравнения между наборами поездов и тестов, более конкретно, чтобы сравнить сходство распределений между функциями. Предположим, мы сделаем это с помощью теста Колмогорова-Сминова с двумя выборками. Но способ, которым я хочу выполнить такой анализ, состоит в том, чтобы сначала вычислить часть статистики по данным поезда, сохранить ее на диск, а затем вызвать ее только тогда, когда поступят новые данные, чтобы использовать их с тестовыми данными. Поэтому я не хочу загружать весь фрейм данных поезда для расчета теста на сходство распределения с двумя выборками. Возможно ли это каким-то образом? Если не с тестом KS, может быть, с каким-то другим, скажем, расхождением кулбэка лейблера. Спасибо.
Ответ №1:
Ну, вот как бы я к этому подошел. Я бы построил CDF на основе набора данных train. Затем этот CDF будет сохранен на диске и при необходимости вызван
Позже я бы запустил пример vs CDF K-S test, скажем, с помощью теста с вызываемым cdf (второй параметр).
Этот вызываемый CDF должен быть тем, который вы получили из набора.