Поиск правильных настроек для проверки орфографии Lucene

#java #lucene #spell-checking

#java #lucene #проверка орфографии

Вопрос:

У меня есть средство проверки орфографии, проиндексированное в списке городов, стран, названий и т. Д., извлеченных из части Википедии. Я получаю плохие результаты для некоторых простых запросов,

Crotia
=> Кротон, Кротти, Паротия

Engerland
=> Eggerland, Egerland, Wangerland

Packistan
=> Packington, Упаковка

Роун Аткинсон
=> Джон Аткинсон, Колин Аткинсон, Алан Аткинсон, Роуэн Аткинсон

Я использую средство проверки орфографии по умолчанию, что-то похожее на это.

Любые предложения о том, как улучшить результаты? Это выглядит ужасно.

Комментарии:

1. Не могу дать много значимой информации без продолжения. Что касается последнего, я подозреваю, что вы пытаетесь сопоставить термин из двух слов с однословным (токенизированным) содержимым (в этом случае любой Аткинсон будет одинаково хорошим совпадением). В остальном, вы уверены, что термины, которые вы ищете, есть в словаре вашей проверки орфографии?

2. Да, это правда (возможно, мне следует проверять каждый токен). Такие термины, как Eggerland и т. Д., Есть в словаре. На самом деле я исправил это с помощью directSpellChecker в Lucene, что дает мне лучшие результаты!