Scrapy предоставляет неоднозначные результаты при разбивке на страницы

#python-3.x #web-scraping #pagination #scrapy

#python-3.x #веб-очистка #разбивка на страницы #scrapy

Вопрос:

Я создал scrapy spider, который выполняет разбивку на страницы. Использование одного и того же скрипта с другой ссылкой с того же веб-сайта и разбивка на страницы были остановлены «Фильтрованным запросом вне сайта». Включение функции «dont_filter» в запросе scrapy приводит к бесконечному циклу по странице. Интересно, как скрипт может выдавать разные результаты без каких-либо изменений?

Ответ №1:

Вы должны предоставить свой код, чтобы мы могли быть более полезными.

Убедитесь, что у вас есть только домен в поле allowed_domains вашего spider. Например:

 class MySpider(scrapy.Spider):
    name = 'example'
    allowed_domains = ['example.com'] # Don't use 'https://example.com/some/path/here'
    start_urls = ['https://example.com/some/path/here']
  

Очевидно, что домен в allowed_domains должен соответствовать доменам, к которым вы создаете запросы.

Вы также можете полностью удалить этот атрибут. Подробнее allowed_domains здесь .

Комментарии:

1. спасибо за идею, я не мог поверить, что это может вызвать проблему so strage