#java
#java
Вопрос:
Я использую heritrix 3.1.1-snapshot для обхода / архивирования содержимого некоторого веб-сайта, мне нужно регистрировать все URL-адреса, встречающиеся на каждой обрабатываемой странице, включая те URL-адреса, которые (настроены) для обхода.
Я долго искал и не получил положительных результатов: (надеюсь, здесь можно получить некоторую помощь. Спасибо.
Ответ №1:
http://crawler.archive.org/articles/user_manual/config.html раздел 6.3.1.4, похоже, отвечает на ваш вопрос.