#python #session #cookies #scrapy
#python #сессия #файлы cookie #scrapy
Вопрос:
Я очищаю PDF-файлы с сайта, используя Scrapy, веб-фреймворк для очистки Python.
Сайт должен пройти тот же сеанс, чтобы вы могли загрузить PDF.
Это отлично работает с Scrapy, потому что все автоматизировано, но когда я запускаю скрипт через пару секунд, он начинает выдавать мне поддельные PDF-файлы, например, когда я пытаюсь получить прямой доступ к PDF-файлу без моего сеанса.
Почему это так и есть идеи, как преодолеть эту проблему!?
Комментарии:
1. Запрашивать их медленнее? Бьюсь об заклад, они ограничивают вашу скорость.
2. В этом вы правы, но для этого требуется более длительный перерыв, и при такой скорости загрузки я не могу завершить свою задачу, потому что необходимо загрузить огромное количество PDF-файлов.
Ответ №1:
Я думаю, что сайт отслеживает вашу сессию. Если это сайт на PHP, передайте файл cookie PHPSESSID в запрос, который загружает PDF-файл.