Как можно повторно сканировать разные сайты с разным запланированным обходом в nutch 1.3?

#nutch #web-crawler

#nutch #веб-сканер

Вопрос:

У меня много сайтов; содержимое некоторых меняется каждый месяц, а содержимое некоторых меняется каждый день. nutch 1.3 проверил их, и теперь я хочу повторно сканировать их с другим запланированным обходом. как я могу это сделать? Спасибо.

Ответ №1:

Вы можете написать сценарий оболочки, в котором вы можете указать имена команд, которые вы используете для запуска crawler, и использовать команду cron в Linux, чтобы ускорить выполнение этого сценария.

http://www.thegeekstuff.com/2011/07/cron-every-5-minutes/

Даже Google сканирует весь веб повторно через некоторый промежуток времени.

Ответ №2:

Вы можете указать интервал выборки (время между двумя последовательными обходами) для каждой записи в вашем начальном файле следующим образом:

 http://daily.com t nutch.fetchInterval=86400
http://montly.com t nutch.fetchInterval=2592000
  

Если вы используете AdaptiveFetchSchedule вышеуказанные записи, просто установите начальный интервал, и после каждого повторного сканирования в зависимости от того, изменена страница или нет, этот интервал будет увеличен или уменьшен. В этом случае, если вам всегда нужен фиксированный интервал, вы можете использовать nutch.fetchInterval.fixed вместо nutch.fetchInterval в приведенных выше строках.