Как рассчитать РУМЯНА для краткого резюме из нескольких предложений?

#python #nlp #text-processing #rouge #bleu

Вопрос:

Я пытаюсь запустить несколько показателей обобщения(ROUGE, METEOR, BLEU, CIDEr) в наборе данных TAC2010. Я использовал пакет python под названием nlg-eval (https://github.com/Maluuba/nlg-eval) для этого. Я попробовал оба API, перечисленных на github: функциональный API: для всего корпуса

 from nlgeval import compute_metrics
metrics_dict = compute_metrics(hypothesis='examples/hyp.txt',
                               references=['examples/ref1.txt', 'examples/ref2.txt'])
 

функциональный API: только для одного предложения (я сложил все предложения в одно предложение для резюме гипотезы и для каждой из четырех ссылок)

 from nlgeval import compute_individual_metrics
metrics_dict = compute_individual_metrics(references, hypothesis)
 

Однако оценка ROUGE-L, которую я получил от оценки nlg, не совпадает с официальной оценкой ROUGE-L, указанной в наборе данных.

Поэтому мой вопрос таков

  1. Как правильно рассчитать РУМЯНА для краткого резюме из нескольких предложений
  2. Как заставить nlg-eval работать на TAC2010

Комментарии:

1. Нет никакой разницы между ROUGE-L для одного предложения и нескольких предложений. Я предполагаю, что разница может быть связана с использованием разной токенизации в разных реализациях метрики.

2. Как насчет других показателей, правильно ли при оценке объединять все предложения в резюме в одно предложение?