#python #web-scraping #beautifulsoup
Вопрос:
Я пытаюсь создать веб-сайт на китайском языке https://bo.io.gov.mo/bo/ii/2021/43/avisosoficiais_cn.asp , но приведенный ниже код не возвращает полный HTML-текст. Странно то, что код может получить мне полный HTML с португальской версии того же веб-сайта https://bo.io.gov.mo/bo/ii/2021/43/avisosoficiais.asp . В чем проблема?
from bs4 import BeautifulSoup
from urllib.request import urlopen
response = urlopen('https://bo.io.gov.mo/bo/ii/2021/43/avisosoficiais_cn.asp')
html_doc = response.read()
soup = BeautifulSoup(html_doc, 'lxml')
strhtm = soup.prettify()
print(strhtm)
Комментарии:
1. Как вы узнали, что он не возвращает полный HTML, чего вам не хватает? например, div с определенным идентификатором / классом?
2. чтобы убедиться, что он статичен , как вы сказали, просмотрите страницу в своем браузере, скопируйте и вставьте исходный код и сохраните его в файле, удалите файл. С
urllib
помощью вы можете проверить ответ, взглянув на код состояния amp; co3. Какой контент вам действительно нужен со страницы?