Получение оценок МЕТЕОРА для японского текста

#nltk #nltk-book

Вопрос:

Я хочу создать партитуры МЕТЕОРОВ для нескольких японских струн. Я импортировал nltk , wordnet и omw , но результаты не убеждают меня, что он работает правильно.

 from nltk.corpus import wordnet
from nltk.translate.meteor_score import single_meteor_score

nltk.download('wordnet')
nltk.download('omw')

reference = "チップは含まれていません。"
hypothesis = "チップは含まれていません。"

print(single_meteor_score(reference, hypothesis))
 

Это выводит 0.5 , но, конечно, это должно быть намного ближе 1.0 , учитывая, что ссылка и гипотеза идентичны?

Нужно ли мне каким-то образом указывать, какой язык wordnet я хочу использовать single_meteor_score() , например, при вызове:

single_meteor_score(reference, hypothesis, wordnet=wordnetJapanese .

Ответ №1:

В ожидании рассмотрения квалифицированным лингвистом я, похоже, нашел решение. Я нашел токенизатор с открытым исходным кодом для японского языка. Я предварительно обработал все свои ссылки и строки гипотез, чтобы вставить пробелы между японскими токенами, а затем выполнить nltk.single_meteor_score() проверку файлов.