#python #scrapy #http-status-code-404
#python #scrapy #http-status-code-404
Вопрос:
Я работаю над проектом, в котором необходимо очистить данные следующего URL-адреса: https://www.funda.nl/objectinsights/getdata/5628496 /
Последняя часть URL-адреса представляет идентификатор объекта. Открытие ссылки в браузере действительно работает, но иногда возвращает ошибку 404. То же самое при использовании оболочки scrapy в python, иногда я могу очистить URL-адрес, иногда нет.
Когда мне удалось открыть URL-адрес (без ошибки 404), я пошел проверять> сеть. Но я недостаточно опытен, чтобы понять эту информацию. Кто-нибудь знает исправление? Или дополнительная информация к этой теме?
Дополнительные URL-адреса, которые вы можете попробовать:
https://www.funda.nl/objectinsights/getdata/5819260/
https://www.funda.nl/objectinsights/getdata/5819578/
https://www.funda.nl/objectinsights/getdata/5819237/
https://www.funda.nl/objectinsights/getdata/5819359/
https://www.funda.nl/objectinsights/getdata/5819371/
https://www.funda.nl/objectinsights/getdata/5819386/
Ответ №1:
Я тестировал их в оболочке scrapy и каждый раз получал ответ 200.
Это не проблема, если у вас прерывистый ответ 404 даже из браузера.
Они вполне могут ограничить вас небольшим количеством запросов на ip-адрес или в минуту.
Попробуйте написать какой-нибудь код с задержкой между запросами или использовать вращающийся прокси (существуют бесплатные пробные версии, если вы не хотите подписываться на них).