Среднее значение баллов BLEU по двум подмножествам данных не совпадает с общим результатом

#metrics #evaluation #seq2seq #bleu

#показатели #оценка #seq2seq #bleu

Вопрос:

Для оценки модели генерации последовательности я использую BLEU1: BLEU4. Я разделил набор тестов на два набора и рассчитал баллы по каждому набору отдельно, а также по всему набору тестов. Удивительно, но результаты, которые я получаю по всему набору тестов, не являются средневзвешенным значением результатов, которые я получаю по каждому набору. Например, рассмотрим оценки BLEU 4, которые я получаю по набору и двум его подмножествам:

набор 1,866 элементов: 0,0001529267908

set2, 1010 элементов: 0,1625387989

<set1, set2>, 1876 элементов: 0.3063472152

Как я должен агрегировать результаты по двум подмножествам, чтобы получить общий результат?

Примечание: Я знаю, что все элементы в set1 короче 4 токенов, поэтому BLEU4 там почти равен нулю.

Ответ №1:

Оценка BLEU по определению нелинейна. Как вы можете видеть в оригинальной статье Папинени и др.:

введите описание изображения здесь

Это произведение двух терминов: штраф за краткость (BP) и среднее гармоническое из n грамм точности. Как штраф за краткость, так и среднее гармоническое значение не являются линейными операциями по отношению к усреднению.

Что касается того, что вы должны сообщить: поскольку два набора тестов выглядят принципиально по-разному, лучший вариант — сообщить два отдельных числа.

Я не знаю, в чем заключается ваша задача, но, учитывая, что желаемые результаты очень короткие, BLEU, возможно, не лучший выбор для оценки. Вы могли бы подумать о чем-то, основанном на редактировании (например, TER), или даже простая точность могла бы сослужить хорошую службу.