Я перебираю URL-адреса через scrapy.requests, но когда я разбиваю их на страницы, он выбирает случайные URL-адреса и разбивает на страницы, пожалуйста, дайте мне знать, если есть какие-либо решения

#python #scrapy #web-crawler

Вопрос:

 def start_requests(self):
    df = pd.read_csv(r'C:UsersBBNprojectsremax_calinks1.csv')
    url_list = df['url'].to_list()#reading url from dataset
    # yield scrapy.Request(url =url_list[1], callback=self.parse,meta={'dont_merge_cookies': True})
    for i in url_list:
        yield scrapy.Request(url =i, callback=self.parse)        
def parse(self, response):
    # sleep(2)
    url = response.xpath('//div[@class="name-rating is-flex has-flex-align-center"]/a')
    for link in url:
        yield{
        'agent_url': 'https://www.remax.ca' str(link.xpath('.//@href').get())         
        }
    # sleep(2)
    next_page = response.xpath('(//a[@class="pagination-item text-center ng-star-inserted"])[ last()-1]/@href').get()
    last_page = response.xpath('(//a[@class="pagination-item text-center selected ng-star-inserted"])[ last()]/text()').get()
    paginate =response.xpath('//div[@class="gallery-pagination is-flex has-flex-content-center ng-star-inserted"]/a[4]/text()').get()
    if not str(last_page)==str(paginate) :#pagination
        # sleep(2)
        yield response.follow(url=f'https://www.remax.ca' str(next_page ),callback = self.parse)

Я перебираю URL-адреса через scrapy.requests, но когда я разбиваю их на страницы, он выбирает случайные URL-адреса и разбивает на страницы, пожалуйста, дайте мне знать, если есть какие-либо решения

Вопрос:

Комментарии:

Вам также может понравиться

Конфигурация Spring boot — бобов без аннотации @компонента

Экономит ли установка и значение int, равное 0, память?

Переменная AJAX не считывается из файла PHP?