#web-crawler #nutch #nutch2
#веб-сканер #затычка #орех2
Вопрос:
Я настроил Nutch 1.17 для обхода нескольких тысяч доменов только с помощью обхода ссылок. Одно из моих главных требований заключается в том, что я должен посещать домашние страницы снова и снова (скажем, через 2 часа), и если появляется какая-либо новая страница, то обходить следует только ее.
Каким должен быть наилучший из возможных способов? Я подумываю о том, чтобы снова и снова сканировать задание запуска инжектора, чтобы сканировать домашние страницы. Это правильный путь? Между тем, как я должен гарантировать, что inlinks также будут извлекаться со временем.
Комментарии:
1. Вы можете найти решение
2. Да, я нашел решение. В начальном режиме вы должны указать время повторного просмотра, например, 4 часа. Затем эти URL-адреса будут выбраны снова через 4 часа.
3. могу ли я узнать параметр в nutch
4. Могу я узнать, используете ли вы nutch webui @Shafiq
5. Могу ли я узнать, как nutch узнает, что добавлена новая страница, а затем обходит ее. Можете ли вы мне помочь?