#scrapy
#scrapy
Вопрос:
Я добавляю список URL, подобный этому. Когда он переходит в конвейер, кажется, что все элементы из списка URL будут переданы process_item .
как разделить элементы в соответствии с конкретным URL? Например, для сохранения элементов с одного URL-адреса в один файл.
class MySpider(scrapy.Spider):
name = 'example.com'
allowed_domains = ['example.com']
start_urls = [
'http://www.example.com/1.html',
'http://www.example.com/2.html',
'http://www.example.com/3.html',
]
Комментарии:
1. Я предложу разбить вашу проблему на две разные части, это упростит вашу работу. Я уверен, что это можно сделать за один раз, но зачем усложнять?. Если вы хотите создать отдельный файл для каждого
unique url
и сохранить в нем данные -> Сделайте это, запустите искатель и сохраните его в одном файле, а затем создайте пользовательский скрипт python для разделения файла на отдельные файлы
Ответ №1:
Добавьте ref_url к элементу перед его получением, затем проверьте его в конвейере. Есть и другие решения, но, я думаю, это самое прямое.