#scrapy
#scrapy
Вопрос:
Я удаляю текст из тегов заголовков с нескольких страниц, но также хочу включить свой начальный URL-адрес в качестве поля в свой элемент. Кто-нибудь знает, как я мог бы это сделать? Когда я экспортирую данные в CSV, я хочу видеть начальный URL-адрес рядом с заголовком, который я извлекаю.
Вот код для моего паука—
class QuadNumbers(BaseSpider):
name = "quad_numbers"
allowed_domains = ["quadratec.com"]
start_urls = ["http://www.example.com/abc",
"http://www.example.com/abc",]
def parse(self, response):
sel = Selector(response)
sites = sel.xpath('//title')
items = []
for site in sites:
item = QuadNumbersItem()
item['title'] = site.xpath('text()').extract()
item['start_url'] = __________??
items.append(item)
return items
Ответ №1:
Вы можете сделать это:
item['start_url'] = response.url