Как настроить heritrix для регистрации всех встречающихся URL-адресов, включая те, которые фильтруются / не для обхода?

#java

#java

Вопрос:

Я использую heritrix 3.1.1-snapshot для обхода / архивирования содержимого некоторого веб-сайта, мне нужно регистрировать все URL-адреса, встречающиеся на каждой обрабатываемой странице, включая те URL-адреса, которые (настроены) для обхода.

Я долго искал и не получил положительных результатов: (надеюсь, здесь можно получить некоторую помощь. Спасибо.

Ответ №1:

http://crawler.archive.org/articles/user_manual/config.html раздел 6.3.1.4, похоже, отвечает на ваш вопрос.