#python #nlp #text-processing #rouge #bleu
Вопрос:
Я пытаюсь запустить несколько показателей обобщения(ROUGE, METEOR, BLEU, CIDEr) в наборе данных TAC2010. Я использовал пакет python под названием nlg-eval (https://github.com/Maluuba/nlg-eval) для этого. Я попробовал оба API, перечисленных на github: функциональный API: для всего корпуса
from nlgeval import compute_metrics
metrics_dict = compute_metrics(hypothesis='examples/hyp.txt',
references=['examples/ref1.txt', 'examples/ref2.txt'])
функциональный API: только для одного предложения (я сложил все предложения в одно предложение для резюме гипотезы и для каждой из четырех ссылок)
from nlgeval import compute_individual_metrics
metrics_dict = compute_individual_metrics(references, hypothesis)
Однако оценка ROUGE-L, которую я получил от оценки nlg, не совпадает с официальной оценкой ROUGE-L, указанной в наборе данных.
Поэтому мой вопрос таков
- Как правильно рассчитать РУМЯНА для краткого резюме из нескольких предложений
- Как заставить nlg-eval работать на TAC2010
Комментарии:
1. Нет никакой разницы между ROUGE-L для одного предложения и нескольких предложений. Я предполагаю, что разница может быть связана с использованием разной токенизации в разных реализациях метрики.
2. Как насчет других показателей, правильно ли при оценке объединять все предложения в резюме в одно предложение?