#python #web-scraping #beautifulsoup
#python #очистка веб-страниц #beautifulsoup
Вопрос:
Я пытаюсь захватить ссылки со встроенной карты Google на карте цепочки поставок здесь, чтобы просмотреть таблицу по ссылкам во всплывающих окнах, но изо всех сил пытаюсь их найти. Кто-нибудь знает простой способ получить эти ссылки с этой страницы?
Примером таких ссылок из всплывающих окон являются:
- https://www.musimmas.com/report/mikie-oleo-nabati-industri-bekasi-west-java-july-september-2020/
- https://www.musimmas.com/report/mikie-oleo-nabati-industri-bekasi-west-java-april-june-2020/
Затем я хотел бы использовать bs4 для преобразования таблиц по этим ссылкам в a pandas
dataframe
и экспортировать их в csv
файл.
Комментарии:
1. Я не совсем понимаю ваш вопрос. Что именно вы хотите наскрести? вы предоставили несколько ссылок. Из ссылок, которые вы хотите очистить
Location
,Address..
?2. Эти множественные ссылки отображаются во всплывающих окнах на карте на карте цепочки поставок здесь — musimmas.com/sustainability/traceability Поэтому я хочу сначала очистить эти ссылки, а затем таблицы, которые находятся в этих ссылках. Но моя проблема прямо сейчас заключается в том, чтобы сначала попытаться получить эти ссылки из встроенной карты Google.
Ответ №1:
Данные загружаются в формате JSON путем отправки GET
запроса на
https://www.musimmas.com/presence/icof/
Вы можете извлечь данные только с requests
помощью модуля, нет необходимости в BeautifulSoup
import requests
headers = {
"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36",
"referer": "https://www.musimmas.com/sustainability/traceability/",
}
response = requests.get(
"https://www.musimmas.com/presence/icof/", headers=headers,
).json()
# To get all links try the following
for data in response:
if data["reports"]:
reports = data["reports"]
for links in reports:
print(links["link"])
print("-" * 20)
Частичный вывод:
https://www.musimmas.com/report/musim-mastika-oils-fats-johor-malaysia-july-september-2020/
/report/musim-mastika-oils-fats-johor-malaysia-april-june-2020/
/report/musim-mastika-oil-fats-johor-malaysia-january-march-2020/
/report/musim-mastika-oil-fats-johor-malaysia-october-december-2019/
/report/musim-mastika-oil-fats-johor-malaysia-july-september-2019/
--------------------
https://www.musimmas.com/report/musim-mas-pelalawan-riau-july-september-2020/
/report/musim-mas-pelalawan-riau-april-june-2020/
/report/musim-mas-pelalawan-riau-january-march-2020/
/report/musim-mas-pelalawan-riau-october-december-2019/
/report/musim-mas-pelalawan-riau-july-september-2019/
/supply-chain-map/summary-report/musim-mas-pelalawan-riau/period-april-june-2019.html
--------------------