#web-crawler #nutch #warc
#веб-сканер #nutch #warc
Вопрос:
Я просканировал список веб-сайтов, используя Nutch 1.12. Я могу сбрасывать данные обхода в отдельные HTML-файлы, используя:
./bin/nutch dump -segment crawl/segments/ -o outputDir nameOfDir
И в один файл WARC с помощью:
./bin/nutch warc crawl/warcs crawl/segment/nameOfSegment
Но как я могу сбросить собранные данные в несколько файлов WARC, по одному для каждой просмотренной веб-страницы?
Ответ №1:
После нескольких попыток мне удалось выяснить, что
./bin/nutch commoncrawldump -outputDir nameOfOutputDir -segment crawl/segments/segmentDir -warc
делает именно то, что мне было нужно: полный дамп сегмента в отдельные файлы WARC!
Ответ №2:
Звучит немного расточительно иметь один WARC на документ, но вот что вы можете сделать: вы могли бы указать низкое значение для ‘warc.output.segment.size’, чтобы файлы поворачивались каждый раз при написании нового документа. WarcExporter использует [https://github.com/ept/warc-hadoop ] под капотом используется конфигурация.
Комментарии:
1. Возможно ли то же самое без использования Hadoop?