#java #lucene #spell-checking
#java #lucene #проверка орфографии
Вопрос:
У меня есть средство проверки орфографии, проиндексированное в списке городов, стран, названий и т. Д., извлеченных из части Википедии. Я получаю плохие результаты для некоторых простых запросов,
Crotia
=> Кротон, Кротти, ПаротияEngerland
=> Eggerland, Egerland, WangerlandPackistan
=> Packington, УпаковкаРоун Аткинсон
=> Джон Аткинсон, Колин Аткинсон, Алан Аткинсон, Роуэн Аткинсон
Я использую средство проверки орфографии по умолчанию, что-то похожее на это.
Любые предложения о том, как улучшить результаты? Это выглядит ужасно.
Комментарии:
1. Не могу дать много значимой информации без продолжения. Что касается последнего, я подозреваю, что вы пытаетесь сопоставить термин из двух слов с однословным (токенизированным) содержимым (в этом случае любой Аткинсон будет одинаково хорошим совпадением). В остальном, вы уверены, что термины, которые вы ищете, есть в словаре вашей проверки орфографии?
2. Да, это правда (возможно, мне следует проверять каждый токен). Такие термины, как Eggerland и т. Д., Есть в словаре. На самом деле я исправил это с помощью directSpellChecker в Lucene, что дает мне лучшие результаты!