#metrics #evaluation #seq2seq #bleu
#показатели #оценка #seq2seq #bleu
Вопрос:
Для оценки модели генерации последовательности я использую BLEU1: BLEU4. Я разделил набор тестов на два набора и рассчитал баллы по каждому набору отдельно, а также по всему набору тестов. Удивительно, но результаты, которые я получаю по всему набору тестов, не являются средневзвешенным значением результатов, которые я получаю по каждому набору. Например, рассмотрим оценки BLEU 4, которые я получаю по набору и двум его подмножествам:
набор 1,866 элементов: 0,0001529267908
set2, 1010 элементов: 0,1625387989
<set1, set2>, 1876 элементов: 0.3063472152
Как я должен агрегировать результаты по двум подмножествам, чтобы получить общий результат?
Примечание: Я знаю, что все элементы в set1 короче 4 токенов, поэтому BLEU4 там почти равен нулю.
Ответ №1:
Оценка BLEU по определению нелинейна. Как вы можете видеть в оригинальной статье Папинени и др.:
Это произведение двух терминов: штраф за краткость (BP) и среднее гармоническое из n грамм точности. Как штраф за краткость, так и среднее гармоническое значение не являются линейными операциями по отношению к усреднению.
Что касается того, что вы должны сообщить: поскольку два набора тестов выглядят принципиально по-разному, лучший вариант — сообщить два отдельных числа.
Я не знаю, в чем заключается ваша задача, но, учитывая, что желаемые результаты очень короткие, BLEU, возможно, не лучший выбор для оценки. Вы могли бы подумать о чем-то, основанном на редактировании (например, TER), или даже простая точность могла бы сослужить хорошую службу.