Предложения как документы в Nutch

#search #lucene #indexing #web-crawler #nutch

#Поиск #люциен #индексирование #веб-сканер #nutch

Вопрос:

Мне нужен Nutch для разделения веб-страниц на предложения при сохранении результатов обхода. Причина в том, что Solr видит каждое предложение как документ при индексации.

Результат, который мне нужен, — это возможность выполнить поиск, скажем, по «одному слову» и получить список всех предложений, содержащих «одно» и / или «слово».

Я новичок в Nutch, так что некоторые советы были бы действительно полезны…

  1. Должен ли я заглянуть в файлы конфигурации Nutch?
  2. Нужно ли мне изменять исходный код Nutch?
  3. Или я могу написать отдельное приложение, которое сможет редактировать результаты обхода после завершения обхода Nutch?

Ответ №1:

Да, вы можете проверить Nutch для своей задачи.

1) одни только файлы конфигурации не выполнят эту работу за вас. см. Пункты выше.

2) вам нужно будет написать свой собственный плагин синтаксического анализа, который подключается к фазе синтаксического анализа nutch после обхода, разбивает вашу htmlстраницу на предложения и возвращает N результатов с одной страницы. Это довольно странно, так как обычно одна страница — это один результат. Ознакомьтесь с FeedParser, чтобы узнать, как возвращать несколько результатов с одной страницы.

3) в принципе, вы могли бы перебирать страницы, извлеченные nutch, получать текст, разбивать их на предложения и использовать SOLR api для индексации ваших предложений, как если бы они были документами. это может быть даже довольно простой задачей mapreduce.

В качестве общей ссылки я предлагаю вам ознакомиться с этой статьей для разделения вашего текста на предложения:

http://sujitpal.blogspot.com/2011/04/uima-sentence-annotator-using-opennlp.html