Можно ли сравнивать результаты теста BLEU между моделями NMT при использовании слегка измененных стандартных наборов тестов?

#machine-translation #seq2seq #bleu #neural-mt

#машинный перевод #seq2seq #bleu #neural-mt

Вопрос:

Я использую tst2013.ru, найденный здесь, в качестве моих наборов тестов, чтобы получить BLEU оценку теста для сравнения с другими предыдущими моделями. Однако мне нужно отфильтровать некоторые предложения, длина которых превышает 100 слов, иначе у меня не будет ресурсов для запуска модели.

Но с немного измененными наборами тестов, допустимо ли сравнивать результаты теста BLEU с другими моделями, которые используют неизмененные наборы тестов?

Ответ №1:

Нет, для сопоставимости результатов важно сохранить целевую часть тестовых данных неповрежденной. Удаление более длинных предложений, вероятно, несправедливо повысит оценку BLEU, потому что все системы, как правило, хуже работают с более длинными предложениями.

Если ваша модель действительно не может обрабатывать предложения длиной более 100 слов (возможно, вы можете уменьшить размер пакета?), правильное решение вашей проблемы:

  • сократите исходную часть тестового набора данных так, чтобы предложения были длиной не более 100 слов, не удаляйте их
  • переведите измененную исходную часть набора данных
  • оценивайте переводы, используя неизмененную целевую часть тестовых данных