#python #request #scrapy
#python #запрос #scrapy
Вопрос:
Я довольно новичок в Python и Scrapy, но что-то просто кажется неправильным. Согласно документации и примеру, повторная реализация функции start_requests приведет к тому, что Scrapy будет использовать возврат start_requests вместо переменной массива start_urls.
С start_urls все работает нормально, но когда я добавляю start_requests, он не переходит в функцию синтаксического анализа. В документации указано, что метод синтаксического анализа
обратный вызов по умолчанию, используемый Scrapy для обработки загруженных ответов, когда в их запросах не указан обратный вызов
но синтаксический анализ никогда не выполняется, отслеживая отпечатки моего регистратора.
Вот мой код, он очень короткий, так как я просто играю с ним.
class Crawler(scrapy.Spider):
name = 'Hearthpwn'
allowed_domains = ['hearthpwn.com']
storage_dir = 'C:/Users/Michal/PycharmProjects/HearthpwnCrawler/'
start_urls = ['http://www.hearthpwn.com/decks/645987-nzoth-warrior']
def start_requests(self):
logging.log(logging.INFO, "Loading requests")
yield Request(url='http://www.hearthpwn.com/decks/646673-s31-legend-2eu-3asia-smorc-hunter')
def parse(self, response):
logging.log(logging.INFO, "parsing response")
filename = response.url.split("/")[-1] '.html'
with open('html/' filename, 'wb') as f:
f.write(response.body)
process = CrawlerProcess({
'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)'
})
process.crawl(Crawler)
process.start()
И печать консоли:
2016-10-12 15:33:39 [scrapy] INFO: Scrapy 1.2.0 started (bot: scrapybot)
2016-10-12 15:33:39 [scrapy] INFO: Overridden settings: {'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)'}
2016-10-12 15:33:39 [scrapy] INFO: Enabled extensions:
['scrapy.extensions.telnet.TelnetConsole',
'scrapy.extensions.corestats.CoreStats',
'scrapy.extensions.logstats.LogStats']
2016-10-12 15:33:39 [scrapy] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
'scrapy.downloadermiddlewares.retry.RetryMiddleware',
'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
'scrapy.downloadermiddlewares.chunked.ChunkedTransferMiddleware',
'scrapy.downloadermiddlewares.stats.DownloaderStats']
2016-10-12 15:33:39 [scrapy] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
'scrapy.spidermiddlewares.referer.RefererMiddleware',
'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
'scrapy.spidermiddlewares.depth.DepthMiddleware']
2016-10-12 15:33:39 [scrapy] INFO: Enabled item pipelines:
[]
2016-10-12 15:33:39 [scrapy] INFO: Spider opened
2016-10-12 15:33:39 [scrapy] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2016-10-12 15:33:39 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:6023
2016-10-12 15:33:39 [root] INFO: Loading requests
2016-10-12 15:33:41 [scrapy] DEBUG: Redirecting (302) to <GET http://www.hearthpwn.com/decks/646673-s31-legend-2eu-3asia-smorc-hunter?cookieTest=1> from <GET http://www.hearthpwn.com/decks/646673-s31-legend-2eu-3asia-smorc-hunter>
2016-10-12 15:33:41 [scrapy] DEBUG: Redirecting (302) to <GET http://www.hearthpwn.com/decks/646673-s31-legend-2eu-3asia-smorc-hunter> from <GET http://www.hearthpwn.com/decks/646673-s31-legend-2eu-3asia-smorc-hunter?cookieTest=1>
2016-10-12 15:33:41 [scrapy] DEBUG: Filtered duplicate request: <GET http://www.hearthpwn.com/decks/646673-s31-legend-2eu-3asia-smorc-hunter> - no more duplicates will be shown (see DUPEFILTER_DEBUG to show all duplicates)
2016-10-12 15:33:41 [scrapy] INFO: Closing spider (finished)
2016-10-12 15:33:41 [scrapy] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 655,
'downloader/request_count': 2,
'downloader/request_method_count/GET': 2,
'downloader/response_bytes': 1248,
'downloader/response_count': 2,
'downloader/response_status_count/302': 2,
'dupefilter/filtered': 1,
'finish_reason': 'finished',
'finish_time': datetime.datetime(2016, 10, 12, 13, 33, 41, 740724),
'log_count/DEBUG': 4,
'log_count/INFO': 8,
'scheduler/dequeued': 2,
'scheduler/dequeued/memory': 2,
'scheduler/enqueued': 2,
'scheduler/enqueued/memory': 2,
'start_time': datetime.datetime(2016, 10, 12, 13, 33, 39, 441736)}
2016-10-12 15:33:41 [scrapy] INFO: Spider closed (finished)
Спасибо за любые подсказки.
Ответ №1:
Использование атрибута dont_merge_cookies в мета-словаре решило бы эту проблему.
def start_requests(self):
logging.log(logging.INFO, "Loading requests")
yield Request(url='http://www.hearthpwn.com/decks/646673-s31-legend-2eu-3asia-smorc-hunter',
meta={'dont_merge_cookies': True})
Комментарии:
1. Спасибо вам и @Granitosaurus ! Хотя этого ответа было достаточно для того, что я намеревался, оба дали мне интересное понимание. В итоге я получил ссылку в стиле перенаправления, где было легко преобразовать имя в исходную форму и сохранить его.
Ответ №2:
2016-10-12 15:33:41 [scrapy] DEBUG: Redirecting (302) to <GET http://www.hearthpwn.com/decks/646673-s31-legend-2eu-3asia-smorc-hunter?cookieTest=1> from <GET http://www.hearthpwn.com/decks/646673-s31-legend-2eu-3asia-smorc-hunter>
2016-10-12 15:33:41 [scrapy] DEBUG: Redirecting (302) to <GET http://www.hearthpwn.com/decks/646673-s31-legend-2eu-3asia-smorc-hunter> from <GET http://www.hearthpwn.com/decks/646673-s31-legend-2eu-3asia-smorc-hunter?cookieTest=1>
2016-10-12 15:33:41 [scrapy] DEBUG: Filtered duplicate request: <GET http://www.hearthpwn.com/decks/646673-s31-legend-2eu-3asia-smorc-hunter> - no more duplicates will be shown (see DUPEFILTER_DEBUG to show all duplicates)
Здесь происходит то, что веб-сайт перенаправляет вас несколько раз, и из-за этого вы в конечном итоге дважды просматриваете один и тот же URL-адрес. Scrapy spider по умолчанию имеет промежуточное программное обеспечение, которое отфильтровывает повторяющиеся запросы, поэтому dont_filter
при True
создании объекта запроса необходимо установить параметр, чтобы игнорировать это промежуточное программное обеспечение.
например:
def start_requests(self):
yield ('http://scrapy.org', dont_filter=True)