производительность lucene / Solr и требования к оборудованию

#java #solr #lucene

#java — язык #solr #lucene

Вопрос:

Я работаю над проектом, где мы пытаемся внедрить searchframework для данных blogg. Мы испытываем трудности с оценкой производительности lucene / Solr при работе с большими наборами данных объемом более 300 ГБ.

Я также не уверен, можно ли удовлетворить наши требования к производительности с помощью настройки одного сервера, или нам нужно использовать реплицируемое или дублируемое решение.

может ли кто-нибудь предоставить оценку аппаратного обеспечения, и является ли использование lucene выполнимым решением

Комментарии:

1. Лучшим показателем является определение размера фактического индексируемого текстового содержимого. Требования к 300 ГБ обычного текста будут значительно отличаться от 300 ГБ файлов .doc. Кроме того, я предлагаю вам запустить тесты на меньшем наборе данных (скажем, 10% данных), чтобы получить некоторое представление о производительности и требованиях к ресурсам.

Ответ №1:

Ничего определенного нельзя сказать без надлежащего изучения данных (или, скорее, хотя бы простого бенчмарка). Производительность индексации и поиска (которые следует рассматривать отдельно) также может сильно различаться в зависимости от вашей конфигурации.

Однако эта статья должна дать вам общее представление о скорости индексации Lucene — на одном современном компьютере можно проиндексировать 21 ГБ статей Википедии примерно за 13 минут.