Скраповые и начальные URL-адреса

#scrapy

Вопрос:

Я удаляю текст из тегов заголовков с нескольких страниц, но также хочу включить свой начальный URL-адрес в качестве поля в свой элемент. Кто-нибудь знает, как я мог бы это сделать? Когда я экспортирую данные в CSV, я хочу видеть начальный URL-адрес рядом с заголовком, который я извлекаю.

Вот код для моего паука—

 class QuadNumbers(BaseSpider):
    name = "quad_numbers"
    allowed_domains = ["quadratec.com"]
    start_urls = ["http://www.example.com/abc",
                  "http://www.example.com/abc",]

    def parse(self, response):
        sel = Selector(response)
        sites = sel.xpath('//title')
        items = []
        for site in sites:
            item = QuadNumbersItem()
            item['title'] = site.xpath('text()').extract()
            item['start_url'] = __________??
            items.append(item)
        return items

Ответ №1:

Вы можете сделать это:

 item['start_url'] = response.url

Вопрос:

Ответ №1:

Вам также может понравиться

Как изменить высоту элемента карты при нажатии кнопки?

Как определить правила проектирования для классов Java?