Загрузка PDF-файлов с помощью Scrapy

#python #session #cookies #scrapy

#python #сессия #файлы cookie #scrapy

Вопрос:

Я очищаю PDF-файлы с сайта, используя Scrapy, веб-фреймворк для очистки Python.

Сайт должен пройти тот же сеанс, чтобы вы могли загрузить PDF.

Это отлично работает с Scrapy, потому что все автоматизировано, но когда я запускаю скрипт через пару секунд, он начинает выдавать мне поддельные PDF-файлы, например, когда я пытаюсь получить прямой доступ к PDF-файлу без моего сеанса.

Почему это так и есть идеи, как преодолеть эту проблему!?

Комментарии:

1. Запрашивать их медленнее? Бьюсь об заклад, они ограничивают вашу скорость.

2. В этом вы правы, но для этого требуется более длительный перерыв, и при такой скорости загрузки я не могу завершить свою задачу, потому что необходимо загрузить огромное количество PDF-файлов.

Ответ №1:

Я думаю, что сайт отслеживает вашу сессию. Если это сайт на PHP, передайте файл cookie PHPSESSID в запрос, который загружает PDF-файл.