Загрузка PDF-файлов с помощью Scrapy

#python #session #cookies #scrapy

#python #сессия #файлы cookie #scrapy

Вопрос:

Я очищаю PDF-файлы с сайта, используя Scrapy, веб-фреймворк для очистки Python.

Сайт должен пройти тот же сеанс, чтобы вы могли загрузить PDF.

Это отлично работает с Scrapy, потому что все автоматизировано, но когда я запускаю скрипт через пару секунд, он начинает выдавать мне поддельные PDF-файлы, например, когда я пытаюсь получить прямой доступ к PDF-файлу без моего сеанса.

Почему это так и есть идеи, как преодолеть эту проблему!?

1. Запрашивать их медленнее? Бьюсь об заклад, они ограничивают вашу скорость.

2. В этом вы правы, но для этого требуется более длительный перерыв, и при такой скорости загрузки я не могу завершить свою задачу, потому что необходимо загрузить огромное количество PDF-файлов.

Ответ №1:

Я думаю, что сайт отслеживает вашу сессию. Если это сайт на PHP, передайте файл cookie PHPSESSID в запрос, который загружает PDF-файл.

Вопрос:

Комментарии:

Ответ №1:

Вам также может понравиться

Настройка регистрации и входа по телефону с помощью пользовательских политик в Azure AD B2C

Angularjs и node лучший способ сохранить маршрут и опубликовать изменения

Макрос Word — замена фиксированного текста переменной, увеличивающейся на определенный шаг