#machine-translation #seq2seq #neural-mt
#машинный перевод #seq2seq #neural-mt
Вопрос:
Итак, я использую показатель оценки BLEU для сравнения производительности моей модели NMT с существующими моделями. Однако мне интересно, сколько настроек мне нужно сопоставить с другими моделями.
Я думаю, что такие настройки, как наборы разработчиков, наборы тестов и гиперпараметры, выполнимы. Однако используемый мной этап предварительной обработки отличается от существующих моделей, и поэтому мне интересно, можно ли сравнить оценку BLEU моей модели с другими. Также есть вероятность, что существующие модели имеют скрытые параметры, о которых не сообщалось.
https://arxiv.org/pdf/1804.08771.pdf решает проблему отчетности BLEU и призывает переключиться на SacreBLEU. Но многие существующие модели используют BLEU, поэтому я не думаю, что смогу использовать показатель оценки SacreBLEU в своей модели.
Ответ №1:
tl; dr
SacreBLEU — это не другая метрика, это реализация BLEU, поэтому то, что вы видите в документах как BLEU, должно быть сопоставимо с тем, что вы получаете от SacreBLEU. Используйте SacreBLEU, когда сможете.
Краткая история оценки BLEU
Оценка BLEU очень чувствительна к токенизации, поэтому важно, чтобы все использовали одну и ту же. Изначально существовала реализация Perl 2001 года, которая долгое время считалась канонической реализацией BLEU. Использование скрипта сопряжено со многими трудностями (он написан на Perl, требует, чтобы данные были в довольно неясном формате SGM). Из-за этого (и потому, что BLEU score довольно прост) появилось много независимых реализаций, например, в MultEval, NLTK. Они проще в использовании, но из-за некоторых незначительных различий в предварительной обработке данных не дают одинаковых результатов. SacreBLEU может выполнять ту же токенизацию и получает те же оценки, что и исходный Perl-скрипт, но считывает данные в виде открытого текста и написан на Python, который в настоящее время чаще всего используется в машинном переводе.
Комментарии:
1. Большое вам спасибо за ответы на мои вопросы! «Они проще в использовании, но из-за некоторых незначительных различий в предварительной обработке данных дают одинаковые результаты». Я думаю, что это должно было быть «не уступать»?
2. Действительно, так оно и было. Спасибо.