Сбрасывает данные из Nutch-обхода в несколько файлов warc

#web-crawler #nutch #warc

#веб-сканер #nutch #warc

Вопрос:

Я просканировал список веб-сайтов, используя Nutch 1.12. Я могу сбрасывать данные обхода в отдельные HTML-файлы, используя:

 ./bin/nutch dump -segment crawl/segments/ -o outputDir nameOfDir

И в один файл WARC с помощью:

 ./bin/nutch warc crawl/warcs crawl/segment/nameOfSegment

Но как я могу сбросить собранные данные в несколько файлов WARC, по одному для каждой просмотренной веб-страницы?

Ответ №1:

После нескольких попыток мне удалось выяснить, что

 ./bin/nutch commoncrawldump -outputDir nameOfOutputDir -segment crawl/segments/segmentDir -warc

делает именно то, что мне было нужно: полный дамп сегмента в отдельные файлы WARC!

Ответ №2:

Звучит немного расточительно иметь один WARC на документ, но вот что вы можете сделать: вы могли бы указать низкое значение для ‘warc.output.segment.size’, чтобы файлы поворачивались каждый раз при написании нового документа. WarcExporter использует [https://github.com/ept/warc-hadoop ] под капотом используется конфигурация.

Вопрос:

Ответ №1:

Ответ №2:

Комментарии:

Вам также может понравиться

Я получаю это в spyder: AttributeError: объект ‘int’ не имеет атрибута ‘subs’

JavaScript — некорректный калькулятор с использованием Google в качестве примера

Соблюдает ли Akka Http настройки jvmproxy?