Ошибка 404 Scrapy на очищаемом URL-адресе Python работает (иногда) в браузере, но не в python

#python #scrapy #http-status-code-404

Вопрос:

Я работаю над проектом, в котором необходимо очистить данные следующего URL-адреса: https://www.funda.nl/objectinsights/getdata/5628496 /

Последняя часть URL-адреса представляет идентификатор объекта. Открытие ссылки в браузере действительно работает, но иногда возвращает ошибку 404. То же самое при использовании оболочки scrapy в python, иногда я могу очистить URL-адрес, иногда нет.

Когда мне удалось открыть URL-адрес (без ошибки 404), я пошел проверять> сеть. Но я недостаточно опытен, чтобы понять эту информацию. Кто-нибудь знает исправление? Или дополнительная информация к этой теме?

Дополнительные URL-адреса, которые вы можете попробовать:

 https://www.funda.nl/objectinsights/getdata/5819260/
https://www.funda.nl/objectinsights/getdata/5819578/
https://www.funda.nl/objectinsights/getdata/5819237/
https://www.funda.nl/objectinsights/getdata/5819359/
https://www.funda.nl/objectinsights/getdata/5819371/
https://www.funda.nl/objectinsights/getdata/5819386/

Ответ №1:

Я тестировал их в оболочке scrapy и каждый раз получал ответ 200.

Это не проблема, если у вас прерывистый ответ 404 даже из браузера.

Они вполне могут ограничить вас небольшим количеством запросов на ip-адрес или в минуту.

Попробуйте написать какой-нибудь код с задержкой между запросами или использовать вращающийся прокси (существуют бесплатные пробные версии, если вы не хотите подписываться на них).

Вопрос:

Ответ №1:

Вам также может понравиться

UWP: добавить эквалайзер в MediaPlayer

Не удается выполнить 2-ю команду в командной строке Windows

как создать две записи в двух режимах одновременно, одна из которых имеет внешний ключ