#nutch #web-crawler
#nutch #веб-сканер
Вопрос:
У меня много сайтов; содержимое некоторых меняется каждый месяц, а содержимое некоторых меняется каждый день. nutch 1.3 проверил их, и теперь я хочу повторно сканировать их с другим запланированным обходом. как я могу это сделать? Спасибо.
Ответ №1:
Вы можете написать сценарий оболочки, в котором вы можете указать имена команд, которые вы используете для запуска crawler, и использовать команду cron в Linux, чтобы ускорить выполнение этого сценария.
http://www.thegeekstuff.com/2011/07/cron-every-5-minutes/
Даже Google сканирует весь веб повторно через некоторый промежуток времени.
Ответ №2:
Вы можете указать интервал выборки (время между двумя последовательными обходами) для каждой записи в вашем начальном файле следующим образом:
http://daily.com t nutch.fetchInterval=86400
http://montly.com t nutch.fetchInterval=2592000
Если вы используете AdaptiveFetchSchedule
вышеуказанные записи, просто установите начальный интервал, и после каждого повторного сканирования в зависимости от того, изменена страница или нет, этот интервал будет увеличен или уменьшен. В этом случае, если вам всегда нужен фиксированный интервал, вы можете использовать nutch.fetchInterval.fixed
вместо nutch.fetchInterval
в приведенных выше строках.