#scrapy
#scrapy
Вопрос:
У меня очень большие списки URL-адресов без http://. Требуется много работы для префикса всех URL-адресов в этих файлах. Они слишком велики для моего компьютера, и я должен разделить их раньше, а затем отредактировать. Все это вместе занимает очень много времени.
Есть ли способ добавить префикс к URL-адресам в коде spider, а не в списке URL?
Комментарии:
1.
start_requests
2. Спасибо. Не могли бы вы объяснить немного больше? Что именно и где я должен это разместить? Я использую start_urls = [url.strip() для URL-адреса в f.readlines()] для вызова списков URL-адресов.
3. вы можете использовать start_requests для вызова запросов scrapy из генератора. Таким образом, вы могли бы лениво загружать все URL-адреса, создавая генератор, который изменяет каждый URL-адрес за раз, а затем scrapy выполнит запрос. docs.scrapy.org/en/latest/_modules/scrapy /…
4. Этот метод также описан в руководстве по Scrapy: docs.scrapy.org/en/latest/intro/tutorial.html