http:// для URL-адресов в коде spider, а не в текстовом файле списка URL

#scrapy

#scrapy

Вопрос:

У меня очень большие списки URL-адресов без http://. Требуется много работы для префикса всех URL-адресов в этих файлах. Они слишком велики для моего компьютера, и я должен разделить их раньше, а затем отредактировать. Все это вместе занимает очень много времени.

Есть ли способ добавить префикс к URL-адресам в коде spider, а не в списке URL?

Комментарии:

1. start_requests

2. Спасибо. Не могли бы вы объяснить немного больше? Что именно и где я должен это разместить? Я использую start_urls = [url.strip() для URL-адреса в f.readlines()] для вызова списков URL-адресов.

3. вы можете использовать start_requests для вызова запросов scrapy из генератора. Таким образом, вы могли бы лениво загружать все URL-адреса, создавая генератор, который изменяет каждый URL-адрес за раз, а затем scrapy выполнит запрос. docs.scrapy.org/en/latest/_modules/scrapy /…

4. Этот метод также описан в руководстве по Scrapy: docs.scrapy.org/en/latest/intro/tutorial.html