#python #web-scraping #scrapy #web-crawler
Вопрос:
class WebsiteSpider(CrawlSpider):
name = "webcrawler"
allowed_domains = ["www.reichelt.com", "cdn-reichelt.de"]
start_urls = [""https://www.reichelt.com/""]
Я настраиваю искатель для базового начального URL-адреса. Моему искателю не удалось просмотреть все вложенные ссылки с моего базового URL-адреса, потому что некоторые из них были на другом URL-адресе. Например cdn-reichelt.de
. Есть ли какой-либо способ изменить это таким образом, чтобы мой искатель обходил ВСЕ домены, с которыми он сталкивается по этому стартовому URL-адресу?
Комментарии:
1. Добавьте оба URL-адреса в
start_urls
2. Неужели нет другого выхода? Потому что я хочу запустить скрипт для нескольких ссылок в списке и не буду знать все возможные домены вручную @abdusco
3. вы можете просто удалить
allowed_domain
. Если вы хотите ограничить его, вы можете добавить свойство с тем же именем и создать список доменов изstart_urls
:@property def allowed_domains(self): return [url_to_domain(url) for url in self.start_urls]