Поисковая система для веб-приложения — многоязычная и многобазная

#mysql #mongodb #solr #search-engine #sphinx

#mysql #mongodb #solr #поисковая система #sphinx

Вопрос:

Я работаю над проектом веб-сайта. У нас есть база MySQL и MongoDB.

  • Мы хотим добавить полнотекстовую поисковую систему поверх этих баз (и если ее можно связать с PostgreSQL, это лучше).

  • Эти базы данных содержат многоязычные тексты, но мы не можем определить язык.

Я видел Solr, ElasticSearch и Sphinx, но что вы посоветуете по этой теме?

  • У Solr и Sphinx есть stemmings, но я не уверен, что мы сможем использовать их без знания языка контента…

  • Elastic — это полноценный JSON, который мог бы быть лучше, если бы мы использовали все больше и больше MongoDB…

Ответ №1:

Не имеет значения, какую поисковую систему вы используете, stemming сильно зависит от языка. ИМХО, вам придется каким-то образом определить язык, чтобы передать текст в соответствующий конечный редактор.

Ответ №2:

Существует продукт от Basis Technologies под названием Rosette Language Platform, который выполняет автоматическое определение языков, которые вы могли бы использовать.

Solr поддерживает JSON для результатов (и индексации???) если это ключевой механизм интеграции. Я бы поставил поддержку «JSON» немного ниже по списку того, что нужно учитывать в системе показателей, и сосредоточился на том, насколько релевантными будут результаты поисковой системы X для моего домена.