Scrapy не вызывает функцию синтаксического анализа с помощью start_requests

ProgramBox

Scrapy не вызывает функцию синтаксического анализа с помощью start_requests

Post author:admin
Запись опубликована:1 февраля, 2023
Post category:Вопросы по программированию

#python #request #scrapy

#python #запрос #scrapy

Вопрос:

Я довольно новичок в Python и Scrapy, но что-то просто кажется неправильным. Согласно документации и примеру, повторная реализация функции start_requests приведет к тому, что Scrapy будет использовать возврат start_requests вместо переменной массива start_urls.

С start_urls все работает нормально, но когда я добавляю start_requests, он не переходит в функцию синтаксического анализа. В документации указано, что метод синтаксического анализа

обратный вызов по умолчанию, используемый Scrapy для обработки загруженных ответов, когда в их запросах не указан обратный вызов

но синтаксический анализ никогда не выполняется, отслеживая отпечатки моего регистратора.

Вот мой код, он очень короткий, так как я просто играю с ним.

class Crawler(scrapy.Spider): name = 'Hearthpwn' allowed_domains = ['hearthpwn.com'] storage_dir = 'C:/Users/Michal/PycharmProjects/HearthpwnCrawler/' start_urls = ['http://www.hearthpwn.com/decks/645987-nzoth-warrior'] def start_requests(self): logging.log(logging.INFO, "Loading requests") yield Request(url='http://www.hearthpwn.com/decks/646673-s31-legend-2eu-3asia-smorc-hunter') def parse(self, response): logging.log(logging.INFO, "parsing response") filename = response.url.split("/")[-1] '.html' with open('html/' filename, 'wb') as f: f.write(response.body) process = CrawlerProcess({ 'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)' }) process.crawl(Crawler) process.start()

И печать консоли:

2016-10-12 15:33:39 [scrapy] INFO: Scrapy 1.2.0 started (bot: scrapybot) 2016-10-12 15:33:39 [scrapy] INFO: Overridden settings: {'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)'} 2016-10-12 15:33:39 [scrapy] INFO: Enabled extensions: ['scrapy.extensions.telnet.TelnetConsole', 'scrapy.extensions.corestats.CoreStats', 'scrapy.extensions.logstats.LogStats'] 2016-10-12 15:33:39 [scrapy] INFO: Enabled downloader middlewares: ['scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware', 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware', 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware', 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware', 'scrapy.downloadermiddlewares.retry.RetryMiddleware', 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware', 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware', 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware', 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware', 'scrapy.downloadermiddlewares.chunked.ChunkedTransferMiddleware', 'scrapy.downloadermiddlewares.stats.DownloaderStats'] 2016-10-12 15:33:39 [scrapy] INFO: Enabled spider middlewares: ['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware', 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware', 'scrapy.spidermiddlewares.referer.RefererMiddleware', 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware', 'scrapy.spidermiddlewares.depth.DepthMiddleware'] 2016-10-12 15:33:39 [scrapy] INFO: Enabled item pipelines: [] 2016-10-12 15:33:39 [scrapy] INFO: Spider opened 2016-10-12 15:33:39 [scrapy] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min) 2016-10-12 15:33:39 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:6023 2016-10-12 15:33:39 [root] INFO: Loading requests 2016-10-12 15:33:41 [scrapy] DEBUG: Redirecting (302) to <GET http://www.hearthpwn.com/decks/646673-s31-legend-2eu-3asia-smorc-hunter?cookieTest=1> from <GET http://www.hearthpwn.com/decks/646673-s31-legend-2eu-3asia-smorc-hunter> 2016-10-12 15:33:41 [scrapy] DEBUG: Redirecting (302) to <GET http://www.hearthpwn.com/decks/646673-s31-legend-2eu-3asia-smorc-hunter> from <GET http://www.hearthpwn.com/decks/646673-s31-legend-2eu-3asia-smorc-hunter?cookieTest=1> 2016-10-12 15:33:41 [scrapy] DEBUG: Filtered duplicate request: <GET http://www.hearthpwn.com/decks/646673-s31-legend-2eu-3asia-smorc-hunter> - no more duplicates will be shown (see DUPEFILTER_DEBUG to show all duplicates) 2016-10-12 15:33:41 [scrapy] INFO: Closing spider (finished) 2016-10-12 15:33:41 [scrapy] INFO: Dumping Scrapy stats: {'downloader/request_bytes': 655, 'downloader/request_count': 2, 'downloader/request_method_count/GET': 2, 'downloader/response_bytes': 1248, 'downloader/response_count': 2, 'downloader/response_status_count/302': 2, 'dupefilter/filtered': 1, 'finish_reason': 'finished', 'finish_time': datetime.datetime(2016, 10, 12, 13, 33, 41, 740724), 'log_count/DEBUG': 4, 'log_count/INFO': 8, 'scheduler/dequeued': 2, 'scheduler/dequeued/memory': 2, 'scheduler/enqueued': 2, 'scheduler/enqueued/memory': 2, 'start_time': datetime.datetime(2016, 10, 12, 13, 33, 39, 441736)} 2016-10-12 15:33:41 [scrapy] INFO: Spider closed (finished)

Спасибо за любые подсказки.

Ответ №1:

Использование атрибута dont_merge_cookies в мета-словаре решило бы эту проблему.

def start_requests(self): logging.log(logging.INFO, "Loading requests") yield Request(url='http://www.hearthpwn.com/decks/646673-s31-legend-2eu-3asia-smorc-hunter', meta={'dont_merge_cookies': True})

Комментарии:

1. Спасибо вам и @Granitosaurus ! Хотя этого ответа было достаточно для того, что я намеревался, оба дали мне интересное понимание. В итоге я получил ссылку в стиле перенаправления, где было легко преобразовать имя в исходную форму и сохранить его.

Ответ №2:

2016-10-12 15:33:41 [scrapy] DEBUG: Redirecting (302) to <GET http://www.hearthpwn.com/decks/646673-s31-legend-2eu-3asia-smorc-hunter?cookieTest=1> from <GET http://www.hearthpwn.com/decks/646673-s31-legend-2eu-3asia-smorc-hunter> 2016-10-12 15:33:41 [scrapy] DEBUG: Redirecting (302) to <GET http://www.hearthpwn.com/decks/646673-s31-legend-2eu-3asia-smorc-hunter> from <GET http://www.hearthpwn.com/decks/646673-s31-legend-2eu-3asia-smorc-hunter?cookieTest=1> 2016-10-12 15:33:41 [scrapy] DEBUG: Filtered duplicate request: <GET http://www.hearthpwn.com/decks/646673-s31-legend-2eu-3asia-smorc-hunter> - no more duplicates will be shown (see DUPEFILTER_DEBUG to show all duplicates)

Здесь происходит то, что веб-сайт перенаправляет вас несколько раз, и из-за этого вы в конечном итоге дважды просматриваете один и тот же URL-адрес. Scrapy spider по умолчанию имеет промежуточное программное обеспечение, которое отфильтровывает повторяющиеся запросы, поэтому dont_filter при True создании объекта запроса необходимо установить параметр, чтобы игнорировать это промежуточное программное обеспечение.

например:

def start_requests(self): yield ('http://scrapy.org', dont_filter=True)

Вам также может понравиться

использование formik в подкомпоненте react
19 марта, 2023

Передача данных в SUMPRODUCT
6 января, 2022

Как мне добавить функцию часов в светодиодный таймер
2 февраля, 2023

О нас

Онлайн игры

Конвертеры

Base64 конвертер онлайн

Оформление кода JavaScript CSS HTML Онлайн

URL Encoder (кодировщик) / Decoder (декодировщик) онлайн

Конвертер регистров

Рассчитать количество дней между датами

Генератор ключей и паролей

Генератор QR кодов

Преобразование времени

Преобразование микросекунд в секунды

Преобразование микросекунд в миллисекунды

Преобразование миллисекунд в микросекунды

Преобразование миллисекунд в секунды

Преобразование миллисекунд в минуты

Преобразование миллисекунд в часы

Преобразователь миллисекунд в дату

Преобразование секунд в миллисекунды

Преобразование секунд в минуты

Преобразование секунд в часы

Преобразование секунд в дни

Преобразование минут во время

Преобразование минут в миллисекунды

Преобразование минут в секунды

Преобразование минут в часы

Преобразование часов в миллисекунды

Преобразование часов в секунды

Преобразование часов в минуты

Преобразование часов в дни

Преобразование дней в часы

Преобразование из часы в недели

Конвертация из недели в часы

Через несколько часов калькулятор

Преобразование времени AM/PM в 24-часовое

Преобразование Военного Времени

Время до десятичного калькулятора

Контакты

Вопросы

Правовое основание

Заказы

Новости и Статьи

Безопасность

Финансы

Энциклопедия

Search this website

Свежие комментарии