Nutch index writer - ProgramBox

#nutch #azure-cognitive-search

#nutch #azure-когнитивный поиск

Вопрос:

Кто-нибудь создал пользовательский Apache Nutch index writer для Azure Search? Я хочу использовать Apache Nutch Crawler для обхода некоторых веб-сайтов, а затем отправить содержимое для обхода в экземпляр поиска Azure. Nutch поставляется с несколькими средствами записи индексов для других поисковых систем с открытым исходным кодом и некоторыми средствами записи файлов, но, что неудивительно, ничего специфичного для Azure Search.

Я просматривал веб-страницы и искал эти форумы, но не нашел средство записи индекса для Azure Search.

Я мог бы написать один из своих собственных, но я пытаюсь избежать потери своих навыков Java (не в обиду Java, но это не высокая рентабельность инвестиций для этого небольшого эксперимента).

Ответ №1:

Просматривая список доступных индексаторов для Nutch, мы видим такие вещи, как indexer-dummy или indexer-csv. Я бы предположил, что адаптировать один из них для отправки содержимого в Azure Search API не составит большого труда. Я бы исследовал, что делает этот фиктивный индексатор, и посмотрел, можно ли это использовать.

В противном случае программа CSV writer окончательно выполнит эту работу. Я могу придумать два подхода.

Отправьте CSV-файлы в хранилище больших двоичных объектов и настройте источник данных Azure Search и индексатор с параметрами для извлечения CSV-файлов (поддерживаются «из коробки»).
Поместите CSV-файлы в локальное хранилище. Напишите некоторый код на C # для чтения файлов и отправки в Azure Search через push API.

Вопрос:

Комментарии:

Ответ №1:

Вам также может понравиться

Octobercms с ошибкой начальной загрузки 5 в компиляторе «ожидание списка, получено значение null: …….»

Как мне запретить пользователю просматривать мой код на сервере?

Почему режим POSIX GNU Awk не считает новую строку полем при установке RS на другое значение?