Уничтожить задачу задания cron

#cron #web-crawler

#cron #веб-искатель

Вопрос:

В настоящее время я использую cronjob для запуска сканера каждую ночь, который может запускаться только ночью. Но я обнаружил, что иногда данные будут огромными, и одной ночи будет недостаточно для обхода всего. Поэтому я должен убить этот процесс утром, например, в 6:00 утра. Как я могу просто убить процесс обхода с помощью cronjob?

Ответ №1:

Зависит от того, что вы используете для обхода, но с помощью StormCrawler, который работает непрерывно, у вас может быть одно задание cron для запуска обхода, вызвав команду ‘storm jar …’, а другое — для его завершения с помощью ‘storm kill …’. С Apache Nutch вы можете добиться того же, перечислив hadoopвыполняемые в данный момент задания и уничтожьте его. Однако было бы чище позволить текущей итерации завершить и проанализировать и проиндексировать сегмент перед завершением обхода. Опять же, это зависит от используемого вами искателя.