проверьте все домены в обходчике

#python #web-scraping #scrapy #web-crawler

Вопрос:

 class WebsiteSpider(CrawlSpider):

    name = "webcrawler"
    
    allowed_domains = ["www.reichelt.com", "cdn-reichelt.de"]
    start_urls = [""https://www.reichelt.com/""]

Я настраиваю искатель для базового начального URL-адреса. Моему искателю не удалось просмотреть все вложенные ссылки с моего базового URL-адреса, потому что некоторые из них были на другом URL-адресе. Например cdn-reichelt.de . Есть ли какой-либо способ изменить это таким образом, чтобы мой искатель обходил ВСЕ домены, с которыми он сталкивается по этому стартовому URL-адресу?

1. Добавьте оба URL-адреса в start_urls

2. Неужели нет другого выхода? Потому что я хочу запустить скрипт для нескольких ссылок в списке и не буду знать все возможные домены вручную @abdusco

3. вы можете просто удалить allowed_domain . Если вы хотите ограничить его, вы можете добавить свойство с тем же именем и создать список доменов из start_urls : @property def allowed_domains(self): return [url_to_domain(url) for url in self.start_urls]

Вопрос:

Комментарии:

Вам также может понравиться

Как указать одного работника в очереди для отложенных заданий

Как настроить полосу прокрутки, чтобы она начиналась сверху в Android?

Проблема с поиском EJB