#python-3.x #web-scraping #pagination #scrapy
#python-3.x #веб-очистка #разбивка на страницы #scrapy
Вопрос:
Я создал scrapy spider, который выполняет разбивку на страницы. Использование одного и того же скрипта с другой ссылкой с того же веб-сайта и разбивка на страницы были остановлены «Фильтрованным запросом вне сайта». Включение функции «dont_filter» в запросе scrapy приводит к бесконечному циклу по странице. Интересно, как скрипт может выдавать разные результаты без каких-либо изменений?
Ответ №1:
Вы должны предоставить свой код, чтобы мы могли быть более полезными.
Убедитесь, что у вас есть только домен в поле allowed_domains
вашего spider. Например:
class MySpider(scrapy.Spider):
name = 'example'
allowed_domains = ['example.com'] # Don't use 'https://example.com/some/path/here'
start_urls = ['https://example.com/some/path/here']
Очевидно, что домен в allowed_domains
должен соответствовать доменам, к которым вы создаете запросы.
Вы также можете полностью удалить этот атрибут. Подробнее allowed_domains
здесь .
Комментарии:
1. спасибо за идею, я не мог поверить, что это может вызвать проблему so strage