#css #image #scripting #scrapy #block
#css #изображение #создание сценариев #scrapy #блокировать
Вопрос:
Мне нужно запретить загрузку изображений, css-файлов, тем и скриптов с веб-страницы. При базовой очистке с помощью scrapy
Есть какой-то способ заблокировать их от setting.py или другой?
импортируйте scrapy
class MySpyder(scrapy.Spider):
name = 'Spiderr'
start_urls = [l.strip() for l in open("Archive").readlines()]
def parse(self,response):
tittle = response.xpath("/html/body/").get('').strip()
url = response.url
yield {
'tittle': tittle,
'URL': url,
}
Я думаю, это уменьшит нагрузку на веб-сайт
Комментарии:
1. Пожалуйста, используйте английский в своем названии.
2. откройте ответ в браузере
view(response)
без подключения к Интернету, и вы не получите никакого рендеринга скрипта (дальнейшие запросы не будут сделаны), при этом скрипты, на которые вы ссылаетесь, обычно поступают с CDN или выделенных серверов только с одной целью, так что не беспокойтесь о них.
Ответ №1:
Scrapy использует исходный код только в ответ
вы можете проверить с помощью response.text
Вы имеете в виду рендеринг JS, к которому scrapy не применяется.
Если вы хотите меньше загружать сервер, вам нужно добавить time delay
и decrease concurrent requests
из settings.py
Комментарии:
1. Мне нужны оба метода, чтобы уменьшить объем загружаемых файлов и воздействие на сервер
2. Scrapy не загружает ничего, кроме исходного HTML-документа. Он выполнит один запрос и вернет строку, которая может быть проанализирована селекторами css / xpath. Замедляйте работу и используйте меньше параллелизма, если у вас нет сменяющихся прокси.