может ли scrapy очистить содержимое iframe, используя только scrapy?

#python #web-scraping #scrapy

#python #веб-очистка #scrapy

Вопрос:

код iframe

Я пробовал копировать и вставлять элементы (xpath) сайта, но результата не возвращает.

может ли scrapy очистить данные, находящиеся внутри iframe? если да, то как, а если нет, то что еще нужно сделать? Спасибо!

 rules = (Rule (SgmlLinkExtractor(deny = path_deny_base, restrict_xpaths=('*'))
    , callback="parse", follow= True),
    )


    def parse(self, response):
        yield(Request(url, callback = self.parse_iframe))

    def parse_iframe(self, response):
        #your code to scrape the content from iframe
        #def parse_items(self, response):
        hxs = HtmlXPathSelector(response)
        titles = hxs.select('//div[2]/h1')
            #//div[2]/h1
        linker = hxs.select('//div[2]/div[10]/a[1]')
            #//div[2]/div[10]/a[1]
        loc_Con = hxs.select('//div[2]/div[1]/div[2]/span/span/span[1]') #//div[2]/div[1]/div[2]/span/span/span[1]
        loc_Reg = hxs.select('//div[2]/div[1]/div[2]/span/span/span[2]') #/div[2]/div[1]/div[2]/span/span/span[2]
        loc_Loc = hxs.select('//div[2]/div[1]/div[2]/span/span/span[3]') #/div[2]/div[1]/div[2]/span/span/span[3]
        items = []
        for titles in titles:
            item = CraigslistSampleItem()
            #item ["job_id"] = id.select('text()').extract()[0].strip()
            item ["title"] = map(unicode.strip, titles.select('text()').extract()) #ok
            item ["link"] = linker.select('@href').extract() #ok
            item ["info"] = (response.url)
            temp1 = loc_Con.select('text()').extract()
            temp2 = loc_Reg.select('text()').extract()
            temp3 = loc_Loc.select('text()').extract()
            temp1 = temp1[0] if temp1 else ""
            temp2 = temp2[0] if temp2 else ""
            temp3 = temp3[0] if temp3 else ""
            item["code"] = "{0}-{1}-{2}".format(temp1, temp2, temp3)
            items.append(item)
        return(items)
 

Ответ №1:

Scrapy не может очистить содержимое из iframe. Скорее вы делаете запрос на URL-адрес iframe, например:

 def parse(self, response):
    yield(Request(url, callback = self.parse_iframe))

def parse_iframe(self, response):
    #your code to scrape the content from iframe
 

Где URL-адрес должен быть URL-адресом iframe, например https://career-meridia....../jobs)

Редактировать:

Замените URL-адрес на часть, подчеркнутую красным. Поместите подчеркнутую часть
Edit2: убедитесь, что вы передали все параметры, необходимые для URL-адреса iframe. В противном случае вы ничего не получите. Если это метод post, вы должны передать все параметры post.

Комментарии:

1. на случай, если я захочу получить помощника службы окружающей среды, подойдет ли обычный xpath?

2. Это обязательно произойдет, если вы получите ответ для этого дочернего iframe (сделайте запрос, как я показал выше)

3. Здесь трудно читать ваш код, можете ли вы отредактировать свои вопросы с помощью этого кода. Спасибо

4. вы должны заменить URL значением iframe src выше.

5. iframe src? извините, я действительно не понимаю. Я попытался изменить URL на response.url. он показывает вывод, но не правильно.

Ответ №2:

Именно так я это и делаю. Сначала получите URL-адрес iframe, затем снова вызовите parse для него.

 urls = response.css('iframe::attr(src)').extract()
for url in urls :
        yield scrapy.Request(url....)