Как я могу очистить следующие страницы с помощью Scrapy

#python #scrapy #web-crawler

#python #scrapy #веб-сканер

Вопрос:

Вот мой scrapy-код.Я не знаю свою ошибку, но только на первой странице царапает.Как я могу очистить и перемещаться по страницам? Есть ли какой-либо другой способ очистки следующих страниц?

 import scrapy

class HurriyetEmlakPage(scrapy.Spider):
    
    name = 'hurriyetspider'
    allowed_domain = 'hurriyetemlak.com'
    start_urls = ['https://www.hurriyetemlak.com/satilik']
    
    def parse(self, response):
       
       fiyat = response.xpath('//div[@class="list-view-price"]//text()').extract()
       durum = response.xpath('//div[@class="middle sibling"]//div[@class="left"]//text()').extract()
       oda_sayisi = response.xpath('//span[@class="celly houseRoomCount"]//text()').extract()
       metrekare = response.xpath('//span[@class="celly squareMeter list-view-size"]//text()').extract()
       bina_yasi = response.xpath('//span[@class="celly buildingAge"]//text()').extract()
       bulundugu_kat = response.xpath('//span[@class="celly floortype"]//text()').extract()
       konum = response.xpath('//div[@class="list-view-location"]//text()').extract()

       scraped_info = {
            'fiyat':fiyat,
            'durum': durum,
            'oda_sayisi' : oda_sayisi,
            'metrekare' : metrekare,
            'bina_yasi' : bina_yasi,
            'bulundugu_kat': bulundugu_kat,
            'konum' : konum
        }
       yield scraped_info
       next_page_url = response.xpath('//li[@class="next-li pagi-nav"]//a').extract_first()
       if next_page_url:
            next_page_url = response.urljoin(next_page_url)
            yield scrapy.Request(url = next_page_url,callback = self.parse)

Ответ №1:

На самом деле, вы могли бы просто сгенерировать свой список URL следующим образом :

 url_list = [f"https://www.hurriyetemlak.com/satilik?page={page}" for page in range(1,7326)]

Вывод

 ['https://www.hurriyetemlak.com/satilik?page=1',
 'https://www.hurriyetemlak.com/satilik?page=2',
 'https://www.hurriyetemlak.com/satilik?page=3',
 'https://www.hurriyetemlak.com/satilik?page=4',
 'https://www.hurriyetemlak.com/satilik?page=5',
  ...]

1. это сработало нормально, но оно сохраняет результаты 1 страницы в 1 строке в файле .csv любое решение для этого?

2. не уверен, что понимаю проблему. Вы имеете в виду, что только на странице 1 вы сталкиваетесь с этим? Вы можете попытаться изменить URL страницы 1 на hurriyetemlak.com/satilik

3. 1 строка в выводе csv сохраняет информацию о 24 объявлениях (1 страница). У вас есть какие-либо идеи, как я могу это решить? Я

Вопрос:

Ответ №1:

Комментарии:

Вам также может понравиться

Как я могу создать образ docker на этапе упаковки и опубликовать его на этапе развертывания?

Конец потока не обнаруживается читателем.EndOfStream

Как получить доступ к DbContext в / из класса Program?