Сбрасывает данные из Nutch-обхода в несколько файлов warc

#web-crawler #nutch #warc

#веб-сканер #nutch #warc

Вопрос:

Я просканировал список веб-сайтов, используя Nutch 1.12. Я могу сбрасывать данные обхода в отдельные HTML-файлы, используя:

 ./bin/nutch dump -segment crawl/segments/ -o outputDir nameOfDir
  

И в один файл WARC с помощью:

 ./bin/nutch warc crawl/warcs crawl/segment/nameOfSegment
  

Но как я могу сбросить собранные данные в несколько файлов WARC, по одному для каждой просмотренной веб-страницы?

Ответ №1:

После нескольких попыток мне удалось выяснить, что

 ./bin/nutch commoncrawldump -outputDir nameOfOutputDir -segment crawl/segments/segmentDir -warc
  

делает именно то, что мне было нужно: полный дамп сегмента в отдельные файлы WARC!

Ответ №2:

Звучит немного расточительно иметь один WARC на документ, но вот что вы можете сделать: вы могли бы указать низкое значение для ‘warc.output.segment.size’, чтобы файлы поворачивались каждый раз при написании нового документа. WarcExporter использует [https://github.com/ept/warc-hadoop ] под капотом используется конфигурация.

Комментарии:

1. Возможно ли то же самое без использования Hadoop?