Nutch — снова и снова посещайте несколько страниц, чтобы найти новые ссылки

#web-crawler #nutch #nutch2

#веб-сканер #затычка #орех2

Вопрос:

Я настроил Nutch 1.17 для обхода нескольких тысяч доменов только с помощью обхода ссылок. Одно из моих главных требований заключается в том, что я должен посещать домашние страницы снова и снова (скажем, через 2 часа), и если появляется какая-либо новая страница, то обходить следует только ее.

Каким должен быть наилучший из возможных способов? Я подумываю о том, чтобы снова и снова сканировать задание запуска инжектора, чтобы сканировать домашние страницы. Это правильный путь? Между тем, как я должен гарантировать, что inlinks также будут извлекаться со временем.

Комментарии:

1. Вы можете найти решение

2. Да, я нашел решение. В начальном режиме вы должны указать время повторного просмотра, например, 4 часа. Затем эти URL-адреса будут выбраны снова через 4 часа.

3. могу ли я узнать параметр в nutch

4. Могу я узнать, используете ли вы nutch webui @Shafiq

5. Могу ли я узнать, как nutch узнает, что добавлена новая страница, а затем обходит ее. Можете ли вы мне помочь?