#python #web-scraping #beautifulsoup #mechanize #cookielib
Вопрос:
Я пытаюсь использовать метод mechanize .open по URL-адресу, чтобы в конечном итоге войти в систему и очистить этот веб-сайт. Я пробовал использовать этот код на других сайтах, и они работают, но по какой-то причине я получаю ошибку только для этого сайта: «mechanize._response.httperror_seek_wrapper: Ошибка HTTP 404: Не найден». Я новичок в Python, но вот мой код:
import mechanize
from bs4 import BeautifulSoup
import html2text
import http.cookiejar
# Browser
br = mechanize.Browser()
# Cookie Jar
cj = http.cookiejar.CookieJar()
br.set_cookiejar(cj)
br.set_handle_equiv(True)
br.set_handle_gzip(True)
br.set_handle_redirect(True)
br.set_handle_referer(True)
br.set_handle_robots(False)
br.set_handle_refresh(mechanize._http.HTTPRefreshProcessor(), max_time=1)
br.addheaders = [('User-agent', 'Chrome')]
br.open('https://onlinebusiness.icbc.com/webdeas-ui/login;type=driver')
Заранее большое спасибо.
Комментарии:
1. некоторые порталы могут использовать более сложные системы для распознавания ботов/хакеров/спамеров, и это может заблокировать вас. И иногда это может быть невозможно решить.
2. когда я проверяю страницу в веб — браузере (DevTools в Firefox/Chrome, вкладка
Netwoork
), она отправляет правильную страницу, но со статусом404
-поэтому эта страница может использовать статус `404 для блокировки ботов/скриптов 🙂