Генерация количества слов для словаря

#unix #dictionary

#unix #словарь

Вопрос:

У меня есть процесс индексирования, который берет документы из базы данных mysql и помещает их в solr.

Я хочу записать количество вхождений каждого слова для исправления правописания.

Очевидно, я мог бы просто сбросить их все в один текстовый файл по ходу работы, затем sort | uniq -c в этот файл и сохранить все слова с количеством слов выше некоторого N — это правильный путь или есть какой-то более разумный способ?

Ответ №1:

В SOLR у вас есть фасеты. Вы можете попробовать выполнить поиск по фасетам с помощью facet.field, указывающего на поле, в котором хранятся интересующие вас текстовые данные. Вы можете использовать facet.mincount для сокращения выходного списка на определенном уровне частоты. Убедитесь, что установлено значение facet.zeroes=false, чтобы исключить любые возможные нули из результирующего списка частот.