какая база данных лучше всего подходит для хранения данных тегов и содержимого?

#database #database-design #search #tagging

#База данных #база данных-дизайн #Поиск #тегирование

Вопрос:

У меня есть система, которая содержит большие двоичные объекты контента и очень длинный список тегов (более 4000) содержимое анализируется отдельным приложением, затем извлекается частота и местоположение каждого тега, какая система баз данных лучше всего подходит для хранения огромного количества контента и тегов, которые затем позволили бы выполнять поиск по таким тегам?

Ответ №1:

Я бы взглянул на Lucene (и связанные проекты, такие как Solr и ElasticSearch) или Sphinx, то есть текстовые поисковые системы, а не то, что вы обычно называете базой данных.

Эти движки предназначены для индексирования документов — больших двоичных объектов текста, путем разбиения их на множество мелких компонентов («токенизация»). Проблема, которую вы описываете — хранение большого двоичного объекта и длинного списка тегов — находится в этом домене.