Как использовать BLEU score для сравнения вашей модели с существующими моделями?

#machine-translation #seq2seq #neural-mt

#машинный перевод #seq2seq #neural-mt

Вопрос:

Итак, я использую показатель оценки BLEU для сравнения производительности моей модели NMT с существующими моделями. Однако мне интересно, сколько настроек мне нужно сопоставить с другими моделями.

Я думаю, что такие настройки, как наборы разработчиков, наборы тестов и гиперпараметры, выполнимы. Однако используемый мной этап предварительной обработки отличается от существующих моделей, и поэтому мне интересно, можно ли сравнить оценку BLEU моей модели с другими. Также есть вероятность, что существующие модели имеют скрытые параметры, о которых не сообщалось.

https://arxiv.org/pdf/1804.08771.pdf решает проблему отчетности BLEU и призывает переключиться на SacreBLEU. Но многие существующие модели используют BLEU, поэтому я не думаю, что смогу использовать показатель оценки SacreBLEU в своей модели.

Ответ №1:

tl; dr

SacreBLEU — это не другая метрика, это реализация BLEU, поэтому то, что вы видите в документах как BLEU, должно быть сопоставимо с тем, что вы получаете от SacreBLEU. Используйте SacreBLEU, когда сможете.

Краткая история оценки BLEU

Оценка BLEU очень чувствительна к токенизации, поэтому важно, чтобы все использовали одну и ту же. Изначально существовала реализация Perl 2001 года, которая долгое время считалась канонической реализацией BLEU. Использование скрипта сопряжено со многими трудностями (он написан на Perl, требует, чтобы данные были в довольно неясном формате SGM). Из-за этого (и потому, что BLEU score довольно прост) появилось много независимых реализаций, например, в MultEval, NLTK. Они проще в использовании, но из-за некоторых незначительных различий в предварительной обработке данных не дают одинаковых результатов. SacreBLEU может выполнять ту же токенизацию и получает те же оценки, что и исходный Perl-скрипт, но считывает данные в виде открытого текста и написан на Python, который в настоящее время чаще всего используется в машинном переводе.

Комментарии:

1. Большое вам спасибо за ответы на мои вопросы! «Они проще в использовании, но из-за некоторых незначительных различий в предварительной обработке данных дают одинаковые результаты». Я думаю, что это должно было быть «не уступать»?

2. Действительно, так оно и было. Спасибо.