#machine-translation #seq2seq #bleu #neural-mt
#машинный перевод #seq2seq #bleu #neural-mt
Вопрос:
Я использую tst2013.ru, найденный здесь, в качестве моих наборов тестов, чтобы получить BLEU
оценку теста для сравнения с другими предыдущими моделями. Однако мне нужно отфильтровать некоторые предложения, длина которых превышает 100 слов, иначе у меня не будет ресурсов для запуска модели.
Но с немного измененными наборами тестов, допустимо ли сравнивать результаты теста BLEU
с другими моделями, которые используют неизмененные наборы тестов?
Ответ №1:
Нет, для сопоставимости результатов важно сохранить целевую часть тестовых данных неповрежденной. Удаление более длинных предложений, вероятно, несправедливо повысит оценку BLEU, потому что все системы, как правило, хуже работают с более длинными предложениями.
Если ваша модель действительно не может обрабатывать предложения длиной более 100 слов (возможно, вы можете уменьшить размер пакета?), правильное решение вашей проблемы:
- сократите исходную часть тестового набора данных так, чтобы предложения были длиной не более 100 слов, не удаляйте их
- переведите измененную исходную часть набора данных
- оценивайте переводы, используя неизмененную целевую часть тестовых данных