#unix #dictionary
#unix #словарь
Вопрос:
У меня есть процесс индексирования, который берет документы из базы данных mysql и помещает их в solr.
Я хочу записать количество вхождений каждого слова для исправления правописания.
Очевидно, я мог бы просто сбросить их все в один текстовый файл по ходу работы, затем sort | uniq -c
в этот файл и сохранить все слова с количеством слов выше некоторого N — это правильный путь или есть какой-то более разумный способ?
Ответ №1:
В SOLR у вас есть фасеты. Вы можете попробовать выполнить поиск по фасетам с помощью facet.field, указывающего на поле, в котором хранятся интересующие вас текстовые данные. Вы можете использовать facet.mincount для сокращения выходного списка на определенном уровне частоты. Убедитесь, что установлено значение facet.zeroes=false, чтобы исключить любые возможные нули из результирующего списка частот.