#java #solr #lucene
#java — язык #solr #lucene
Вопрос:
Я работаю над проектом, где мы пытаемся внедрить searchframework для данных blogg. Мы испытываем трудности с оценкой производительности lucene / Solr при работе с большими наборами данных объемом более 300 ГБ.
Я также не уверен, можно ли удовлетворить наши требования к производительности с помощью настройки одного сервера, или нам нужно использовать реплицируемое или дублируемое решение.
может ли кто-нибудь предоставить оценку аппаратного обеспечения, и является ли использование lucene выполнимым решением
Комментарии:
1. Лучшим показателем является определение размера фактического индексируемого текстового содержимого. Требования к 300 ГБ обычного текста будут значительно отличаться от 300 ГБ файлов .doc. Кроме того, я предлагаю вам запустить тесты на меньшем наборе данных (скажем, 10% данных), чтобы получить некоторое представление о производительности и требованиях к ресурсам.
Ответ №1:
Ничего определенного нельзя сказать без надлежащего изучения данных (или, скорее, хотя бы простого бенчмарка). Производительность индексации и поиска (которые следует рассматривать отдельно) также может сильно различаться в зависимости от вашей конфигурации.
Однако эта статья должна дать вам общее представление о скорости индексации Lucene — на одном современном компьютере можно проиндексировать 21 ГБ статей Википедии примерно за 13 минут.