#asp.net #solr #web-crawler #nutch #solrnet
#asp.net #solr #веб-сканер #nutch #solrnet
Вопрос:
Я использую Nutch / Solr / SolrNet для своих поисковых решений, должен сказать, это работает великолепно. На новом сайте, над которым я работаю, я использую мастер-страницы, в результате содержимое верхнего и нижнего колонтитулов индексируется и искажает результаты. Например, у меня есть ссылка на страницу «Свяжитесь с нами» в заголовке. Теперь, когда я ищу «Контакт», результат возвращает все страницы на сайте.
Существует ли настраиваемый анализатор Nutch, которому я, возможно, могу передать идентификатор div, а затем он индексирует содержимое только внутри div.
Или, если есть поисковики на основе .NET, которые я могу настроить.
Комментарии:
1. Я нашел NCrawler , поисковик .net. имеет отзывы 4 * 5 звезд и выглядит многообещающе.
Ответ №1:
Видеть https://issues.apache.org/jira/browse/NUTCH-585 и https://issues.apache.org/jira/browse/NUTCH-961
Кстати, вы получили бы более релевантную аудиторию, разместив публикацию в списке пользователей Nutch
Комментарии:
1. Спасибо за ссылки, они помогут мне разобраться в Nutch. Я также решил использовать NCrawler (.NET) для некоторых конкретных ситуаций, главным образом потому, что я использую C #.
Ответ №2:
Вы можете реализовать фильтр Nutch (мне нравится Jericho HTML Parser), чтобы извлекать только те части страницы, которые вам нужно проиндексировать, используя манипуляции с DOM. Вы можете использовать класс TextExtractor для извлечения чистого текста (без HTML-тегов) для использования в вашем индексе. Обычно я сохраняю эти данные в пользовательских полях.