Пользовательский анализатор для Nutch (или поисковик .NET с открытым исходным кодом)

#asp.net #solr #web-crawler #nutch #solrnet

#asp.net #solr #веб-сканер #nutch #solrnet

Вопрос:

Я использую Nutch / Solr / SolrNet для своих поисковых решений, должен сказать, это работает великолепно. На новом сайте, над которым я работаю, я использую мастер-страницы, в результате содержимое верхнего и нижнего колонтитулов индексируется и искажает результаты. Например, у меня есть ссылка на страницу «Свяжитесь с нами» в заголовке. Теперь, когда я ищу «Контакт», результат возвращает все страницы на сайте.

Существует ли настраиваемый анализатор Nutch, которому я, возможно, могу передать идентификатор div, а затем он индексирует содержимое только внутри div.

Или, если есть поисковики на основе .NET, которые я могу настроить.

Комментарии:

1. Я нашел NCrawler , поисковик .net. имеет отзывы 4 * 5 звезд и выглядит многообещающе.

Ответ №1:

Видеть https://issues.apache.org/jira/browse/NUTCH-585 и https://issues.apache.org/jira/browse/NUTCH-961

Кстати, вы получили бы более релевантную аудиторию, разместив публикацию в списке пользователей Nutch

Комментарии:

1. Спасибо за ссылки, они помогут мне разобраться в Nutch. Я также решил использовать NCrawler (.NET) для некоторых конкретных ситуаций, главным образом потому, что я использую C #.

Ответ №2:

Вы можете реализовать фильтр Nutch (мне нравится Jericho HTML Parser), чтобы извлекать только те части страницы, которые вам нужно проиндексировать, используя манипуляции с DOM. Вы можете использовать класс TextExtractor для извлечения чистого текста (без HTML-тегов) для использования в вашем индексе. Обычно я сохраняю эти данные в пользовательских полях.