Можно ли сравнивать результаты теста BLEU между моделями NMT при использовании слегка измененных стандартных наборов тестов?

#machine-translation #seq2seq #bleu #neural-mt

#машинный перевод #seq2seq #bleu #neural-mt

Вопрос:

Я использую tst2013.ru, найденный здесь, в качестве моих наборов тестов, чтобы получить BLEU оценку теста для сравнения с другими предыдущими моделями. Однако мне нужно отфильтровать некоторые предложения, длина которых превышает 100 слов, иначе у меня не будет ресурсов для запуска модели.

Но с немного измененными наборами тестов, допустимо ли сравнивать результаты теста BLEU с другими моделями, которые используют неизмененные наборы тестов?

Ответ №1:

Нет, для сопоставимости результатов важно сохранить целевую часть тестовых данных неповрежденной. Удаление более длинных предложений, вероятно, несправедливо повысит оценку BLEU, потому что все системы, как правило, хуже работают с более длинными предложениями.

Если ваша модель действительно не может обрабатывать предложения длиной более 100 слов (возможно, вы можете уменьшить размер пакета?), правильное решение вашей проблемы:

сократите исходную часть тестового набора данных так, чтобы предложения были длиной не более 100 слов, не удаляйте их
переведите измененную исходную часть набора данных
оценивайте переводы, используя неизмененную целевую часть тестовых данных

Вопрос:

Ответ №1:

Вам также может понравиться

Кибана показывает слишком много исключений из ведер. Как увеличить ведра или есть лучший способ справиться с этим?

Загрузка текстового файла на php, как это сделать и меры безопасности

Таблицы поиска в Entity Framework 4.1 (правильный способ) на C#