#nutch #nutch2
#nutch #nutch2
Вопрос:
Я просматриваю, например, 1000 веб-сайтов.когда я читаю db для некоторых веб-сайтов, он показывает db_redirect_temp и db_redirect_moved, если я установил http.redirect.max=10 — это значение для каждого веб-сайта, или он обрабатывает только 10 перенаправлений для всех сканируемых веб-сайтов.
Ответ №1:
http.redirect.max определяется как:
Максимальное количество перенаправлений, которые будут выполняться при попытке извлечения страницы. Если установлено значение negative или 0, fetcher не будет сразу следовать перенаправленным URL-адресам, вместо этого он запишет их для последующей выборки.
Это число применяется к перенаправлениям одной веб-страницы. 10 — это действительно щедрый лимит, 3 должно быть достаточно в большинстве случаев, учитывая, что цель перенаправления в любом случае будет проверена в одном из более поздних циклов выборки. Обратите внимание, что источник перенаправления всегда записывается в CrawlDb как db_redir_perm или db_redir_temp.
Комментарии:
1. таким образом, это означает, что каждая веб-страница будет следовать за перенаправлением 10 в цикле обхода или будет следовать за обходом в следующем цикле @Sebastian Nagel
2. ДА. До 10 перенаправлений в цепочке выполняются непосредственно fetcher, если
http.redirect.max
установлено значение 10.3. таким образом, он следует за перенаправлением в том же цикле обхода или в следующем цикле обхода.
4. Да, перенаправления выполняются в том же цикле.