Запретить последовательность URL-адресов в Scrapy CrawalSpider

ProgramBox

Запретить последовательность URL-адресов в Scrapy CrawalSpider

Post author:admin
Запись опубликована:8 января, 2022
Post category:Вопросы по программированию

#python #scrapy

Вопрос:

У меня есть маленький паук, который ползает по сайтам для социальных контактов. Я хочу, чтобы он отрицал URL-адреса, содержащие «/продукты», «/коллекции» и т. Д. Это мое правило линкэкстрактора.

 rules = (
    Rule(LinkExtractor(allow_domains=allowed_domains),
         callback='parse_page', process_links='process_links', follow=True),
)

Я проверил много решений, но я не могу использовать их в своем сценарии.

Ответ №1:

Это должно сработать:

 rules = (
    Rule(LinkExtractor(allow_domains=allowed_domains, deny=('/products/*','/collections/*', )),
         callback='parse_page', process_links='process_links', follow=True),
)

Вы можете увидеть пример в документации по скрапу

Метки: Запретить последовательность URL-адресов в Scrapy CrawalSpider

Вопрос:

Ответ №1:

Вам также может понравиться

Почему входные данные не работают в Android WebView после смены языка устройства?

Не показывает правильную дельту в минутах

Перенаправление на https в ASP.NET Приложение MVC 5 загружается бесконечно