Как настроить heritrix для регистрации всех встречающихся URL-адресов, включая те, которые фильтруются / не для обхода?

ProgramBox

Как настроить heritrix для регистрации всех встречающихся URL-адресов, включая те, которые фильтруются / не для обхода?

Post author:admin
Запись опубликована:29 мая, 2023
Post category:Вопросы по программированию

#java

Вопрос:

Я использую heritrix 3.1.1-snapshot для обхода / архивирования содержимого некоторого веб-сайта, мне нужно регистрировать все URL-адреса, встречающиеся на каждой обрабатываемой странице, включая те URL-адреса, которые (настроены) для обхода.

Я долго искал и не получил положительных результатов: (надеюсь, здесь можно получить некоторую помощь. Спасибо.

Ответ №1:

http://crawler.archive.org/articles/user_manual/config.html раздел 6.3.1.4, похоже, отвечает на ваш вопрос.

Вопрос:

Ответ №1:

Вам также может понравиться

Есть ли способ сделать ширину контейнера больше, чем экран в Flutter?

Рисование ограничивающей рамки вокруг объектов в пределах порогового значения в Python

Как JavaScript может получать данные с компьютера пользователя?