Механизировать экземпляр не удается .откройте определенный веб-сайт

#python #web-scraping #beautifulsoup #mechanize #cookielib

Вопрос:

Я пытаюсь использовать метод mechanize .open по URL-адресу, чтобы в конечном итоге войти в систему и очистить этот веб-сайт. Я пробовал использовать этот код на других сайтах, и они работают, но по какой-то причине я получаю ошибку только для этого сайта: «mechanize._response.httperror_seek_wrapper: Ошибка HTTP 404: Не найден». Я новичок в Python, но вот мой код:

 import mechanize
from bs4 import BeautifulSoup
import html2text
import http.cookiejar

# Browser
br = mechanize.Browser()

# Cookie Jar
cj = http.cookiejar.CookieJar()
br.set_cookiejar(cj)

br.set_handle_equiv(True)
br.set_handle_gzip(True)
br.set_handle_redirect(True)
br.set_handle_referer(True)
br.set_handle_robots(False)
br.set_handle_refresh(mechanize._http.HTTPRefreshProcessor(), max_time=1)
br.addheaders = [('User-agent', 'Chrome')]

br.open('https://onlinebusiness.icbc.com/webdeas-ui/login;type=driver')
 

Заранее большое спасибо.

Комментарии:

1. некоторые порталы могут использовать более сложные системы для распознавания ботов/хакеров/спамеров, и это может заблокировать вас. И иногда это может быть невозможно решить.

2. когда я проверяю страницу в веб — браузере (DevTools в Firefox/Chrome, вкладка Netwoork ), она отправляет правильную страницу, но со статусом 404 -поэтому эта страница может использовать статус `404 для блокировки ботов/скриптов 🙂