#histogram #distance #distribution #loss-function #multivariate-testing
#гистограмма #расстояние #распределение #функция потерь #многомерное тестирование
Вопрос:
Я не уверен в терминологии, которую я должен использовать для своей проблемы, поэтому я приведу пример.
У меня есть 2 набора измерений (6 эмпирических распределений на набор = D1-6), которые описывают 2 разных состояния одной и той же системы (СИНИЙ и КРАСНЫЙ). Эти распределения могут быть мультимодальными, искаженными, с недостаточной выборкой и странными в некоторых других непредсказуемых отношениях.
СИНИЙ — это моя ссылка, и я хочу, чтобы КРАСНЫЙ был распределен как можно ближе к СИНЕМУ для всех попарных распределений.Для этого я буду играть с параметрами моей КРАСНОЙ системы и отслеживать КРАСНЫЙ набор измерений D1-6, пытаясь заставить его идеально перекрывать СИНИЙ.
Я знаю, что могу использовать расстояния Дженсена-Шеннона или Бхаттачарьи для оценки расстояния между 2 распределениями (например, RED-D1 и BLUE-D1). Однако я не знаю, существуют ли другие показатели, которые можно было бы применить здесь, чтобы получить глобальное расстояние между всеми распределениями (т.Е. Количественно определить глобальное несоответствие между 2 наборами попарных распределений). Так ли это?
Я подумываю о создании эмпирической функции подсчета очков, которая использовала бы все попарные расстояния Дженсена-Шеннона, но у меня пока нет лучших идей. Я считаю, что я НЕ могу просто суммировать все расстояния JS, потому что я получил бы аналогичные оценки в этих 2 гипотетических, разных случаях:
D1-6 распределены так, как на моем изображении
КРАСНЫЙ-D1-5 намного лучше подходит для СИНЕГО-D1-5, НО КРАСНЫЙ-D6 смещен по сравнению с СИНИМ-D6
И это было бы неправильно, потому что я бы пропустил одну важную особенность моей системы. Учитывая эти 2 случая, лучше распределить D1-6, как на моем изображении (решение 1).
Попарное совпадение между каждым распределением одинаково важно и должно быть одинаково взвешенным (т. Е. совпадение между BLUE-D1 и RED-D1 так же важно, как совпадение между BLUE-D2 и RED-D2 и т. Д.).
D1-3 имеет заданный диапазон DOM1, равный [0, 5], а D4-6 имеет другой диапазон DOM2, равный [50, 800]. Ромбы представляют взвешенные средние значения СИНЕГО и КРАСНОГО распределений.
Большое вам спасибо за вашу помощь!
Комментарии:
1. Существует множество способов количественной оценки глобального несоответствия между 2 наборами попарных распределений. Например, хорошо известный тест Колмогорова-Смирнова (K-S), основанный на некоторой количественной разнице между двумя распределениями. И я полагаю, что оно определено разумным образом, и для вашего случая может быть вычислено без проблем. Но есть два предостережения: 1. Это не расстояние, а не показатель. 2. Как правило, если вы хотите настроить параметры так, чтобы они лучше соответствовали известному распределению, вы получаете производные и запускаете GD или что-то подобное. Трудно получить производные для разницы K-S. Вы должны установить условия для того, что вы хотите.
Ответ №1:
В итоге я использовал сумму всех попарных расстояний землеройного движителя (EMD, https://en.wikipedia.org/wiki/Earth_mover’s_distance , также известная как метрика Вассерштейна) как глобальная метрика расстояния между всеми попарными распределениями. Это соответствующим образом описывает разницу или сходство между 2 состояниями моей системы.
EMD реализован на python в пакете ‘pyemd’ или с помощью scipy: https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.wasserstein_distance.html .