Nutch index writer

#nutch #azure-cognitive-search

#nutch #azure-когнитивный поиск

Вопрос:

Кто-нибудь создал пользовательский Apache Nutch index writer для Azure Search? Я хочу использовать Apache Nutch Crawler для обхода некоторых веб-сайтов, а затем отправить содержимое для обхода в экземпляр поиска Azure. Nutch поставляется с несколькими средствами записи индексов для других поисковых систем с открытым исходным кодом и некоторыми средствами записи файлов, но, что неудивительно, ничего специфичного для Azure Search.

Я просматривал веб-страницы и искал эти форумы, но не нашел средство записи индекса для Azure Search.

Я мог бы написать один из своих собственных, но я пытаюсь избежать потери своих навыков Java (не в обиду Java, но это не высокая рентабельность инвестиций для этого небольшого эксперимента).

Комментарии:

1. Плагин indexer-cloudsearch (для AWS cloudsearch) может стать хорошей отправной точкой для его написания.

Ответ №1:

Просматривая список доступных индексаторов для Nutch, мы видим такие вещи, как indexer-dummy или indexer-csv. Я бы предположил, что адаптировать один из них для отправки содержимого в Azure Search API не составит большого труда. Я бы исследовал, что делает этот фиктивный индексатор, и посмотрел, можно ли это использовать.

В противном случае программа CSV writer окончательно выполнит эту работу. Я могу придумать два подхода.

  1. Отправьте CSV-файлы в хранилище больших двоичных объектов и настройте источник данных Azure Search и индексатор с параметрами для извлечения CSV-файлов (поддерживаются «из коробки»).
  2. Поместите CSV-файлы в локальное хранилище. Напишите некоторый код на C # для чтения файлов и отправки в Azure Search через push API.