#python #scrapy #web-crawler
Вопрос:
def start_requests(self):
df = pd.read_csv(r'C:UsersBBNprojectsremax_calinks1.csv')
url_list = df['url'].to_list()#reading url from dataset
# yield scrapy.Request(url =url_list[1], callback=self.parse,meta={'dont_merge_cookies': True})
for i in url_list:
yield scrapy.Request(url =i, callback=self.parse)
def parse(self, response):
# sleep(2)
url = response.xpath('//div[@class="name-rating is-flex has-flex-align-center"]/a')
for link in url:
yield{
'agent_url': 'https://www.remax.ca' str(link.xpath('.//@href').get())
}
# sleep(2)
next_page = response.xpath('(//a[@class="pagination-item text-center ng-star-inserted"])[ last()-1]/@href').get()
last_page = response.xpath('(//a[@class="pagination-item text-center selected ng-star-inserted"])[ last()]/text()').get()
paginate =response.xpath('//div[@class="gallery-pagination is-flex has-flex-content-center ng-star-inserted"]/a[4]/text()').get()
if not str(last_page)==str(paginate) :#pagination
# sleep(2)
yield response.follow(url=f'https://www.remax.ca' str(next_page ),callback = self.parse)
Я перебираю URL-адреса через scrapy.requests, но когда я разбиваю их на страницы, он выбирает случайные URL-адреса и разбивает на страницы, пожалуйста, дайте мне знать, если есть какие-либо решения
Комментарии:
1. Можете ли вы дать нам один из URL-адресов, которые вы пытаетесь очистить?