#nutch #azure-cognitive-search
#nutch #azure-когнитивный поиск
Вопрос:
Кто-нибудь создал пользовательский Apache Nutch index writer для Azure Search? Я хочу использовать Apache Nutch Crawler для обхода некоторых веб-сайтов, а затем отправить содержимое для обхода в экземпляр поиска Azure. Nutch поставляется с несколькими средствами записи индексов для других поисковых систем с открытым исходным кодом и некоторыми средствами записи файлов, но, что неудивительно, ничего специфичного для Azure Search.
Я просматривал веб-страницы и искал эти форумы, но не нашел средство записи индекса для Azure Search.
Я мог бы написать один из своих собственных, но я пытаюсь избежать потери своих навыков Java (не в обиду Java, но это не высокая рентабельность инвестиций для этого небольшого эксперимента).
Комментарии:
1. Плагин indexer-cloudsearch (для AWS cloudsearch) может стать хорошей отправной точкой для его написания.
Ответ №1:
Просматривая список доступных индексаторов для Nutch, мы видим такие вещи, как indexer-dummy или indexer-csv. Я бы предположил, что адаптировать один из них для отправки содержимого в Azure Search API не составит большого труда. Я бы исследовал, что делает этот фиктивный индексатор, и посмотрел, можно ли это использовать.
В противном случае программа CSV writer окончательно выполнит эту работу. Я могу придумать два подхода.
- Отправьте CSV-файлы в хранилище больших двоичных объектов и настройте источник данных Azure Search и индексатор с параметрами для извлечения CSV-файлов (поддерживаются «из коробки»).
- Поместите CSV-файлы в локальное хранилище. Напишите некоторый код на C # для чтения файлов и отправки в Azure Search через push API.