#sql-server #full-text-search #search-engine #lucene.net
#sql-сервер #полнотекстовый поиск #поисковая система #lucene.net
Вопрос:
Я создаю поисковую систему, и я завершил первый этап, который является паутинным (выборка HTML-документов и анализ каждого документа для получения других ссылок). Теперь я должен проиндексировать содержимое html-документов. Прежде всего, я решил использовать СУБД (например, SQL Server) для этой цели, но я нашел другую библиотеку под названием Lucene.NET.
В чем разница между lucene.NET и SQL Server и какой из них лучше использовать для индексации HTML-документов? Я много читал о Lucene.Net и я удивлены, что это дает лучшую производительность, чем SQL Server. Кто-нибудь может мне это объяснить?
Ответ №1:
SQL Server — это СУБД общего назначения, которая не оптимизирована для очень быстрого индексирования текста (да, у нее есть полнотекстовые индексы, но одновременно она выполняет множество других функций).
Lucene.NET не является СУБД, и его основной функцией является быстрое индексирование текста.
Не удивительно, что это лучше, чем SQL Server.