Не загружайте изображения, css или темы и скрипты в scrapy

#css #image #scripting #scrapy #block

#css #изображение #создание сценариев #scrapy #блокировать

Вопрос:

Мне нужно запретить загрузку изображений, css-файлов, тем и скриптов с веб-страницы. При базовой очистке с помощью scrapy

Есть какой-то способ заблокировать их от setting.py или другой?

импортируйте scrapy

 class MySpyder(scrapy.Spider):
    name = 'Spiderr'
    start_urls = [l.strip() for l in open("Archive").readlines()]

    def parse(self,response):
        tittle = response.xpath("/html/body/").get('').strip()
        url = response.url
        yield {
            'tittle': tittle,
            'URL': url,
        }
  

Я думаю, это уменьшит нагрузку на веб-сайт

Комментарии:

1. Пожалуйста, используйте английский в своем названии.

2. откройте ответ в браузере view(response) без подключения к Интернету, и вы не получите никакого рендеринга скрипта (дальнейшие запросы не будут сделаны), при этом скрипты, на которые вы ссылаетесь, обычно поступают с CDN или выделенных серверов только с одной целью, так что не беспокойтесь о них.

Ответ №1:

Scrapy использует исходный код только в ответ

вы можете проверить с помощью response.text

Вы имеете в виду рендеринг JS, к которому scrapy не применяется.

Если вы хотите меньше загружать сервер, вам нужно добавить time delay и decrease concurrent requests из settings.py

Комментарии:

1. Мне нужны оба метода, чтобы уменьшить объем загружаемых файлов и воздействие на сервер

2. Scrapy не загружает ничего, кроме исходного HTML-документа. Он выполнит один запрос и вернет строку, которая может быть проанализирована селекторами css / xpath. Замедляйте работу и используйте меньше параллелизма, если у вас нет сменяющихся прокси.