как сохранить все элементы для каждого URL - ProgramBox

ProgramBox

как сохранить все элементы для каждого URL

Post author:admin
Запись опубликована:4 февраля, 2023
Post category:Вопросы по программированию

#scrapy

#scrapy

Вопрос:

Я добавляю список URL, подобный этому. Когда он переходит в конвейер, кажется, что все элементы из списка URL будут переданы process_item .

как разделить элементы в соответствии с конкретным URL? Например, для сохранения элементов с одного URL-адреса в один файл.

 class MySpider(scrapy.Spider):
    name = 'example.com'
    allowed_domains = ['example.com']
    start_urls = [
        'http://www.example.com/1.html',
        'http://www.example.com/2.html',
        'http://www.example.com/3.html',
    ]

Комментарии:

1. Я предложу разбить вашу проблему на две разные части, это упростит вашу работу. Я уверен, что это можно сделать за один раз, но зачем усложнять?. Если вы хотите создать отдельный файл для каждого unique url и сохранить в нем данные -> Сделайте это, запустите искатель и сохраните его в одном файле, а затем создайте пользовательский скрипт python для разделения файла на отдельные файлы

Ответ №1:

Добавьте ref_url к элементу перед его получением, затем проверьте его в конвейере. Есть и другие решения, но, я думаю, это самое прямое.