#excel #web-scraping #import #tripadvisor
#excel #очистка веб-страниц #импорт #tripadvisor
Вопрос:
Возможно ли получить список этих данных:https://www.tripadvisor.com/Restaurants-g188590-Amsterdam_North_Holland_Province.html
в электронных таблицах Google?
Итак, список всех ресторанов Амстердама. И, если возможно, с указанием адреса и т.д.
Пожалуйста, дайте мне знать!
Большое спасибо!
Ответ №1:
Мы можем достичь результата с помощью Python двумя способами
- С помощью веб-очистки извлеките данные из вашей ссылки, а с помощью pyexcel framework запишите данные в свой файл Excel.
По ссылке ниже подробно объясняется, как выполнить веб-очистку с помощью Python https://realpython.com/python-web-scraping-practical-introduction /
- Использование selenium и pyexcel
В случае, если данные необходимо сохранить в Google sheet, используйте gspread framework
Ответ №2:
Это пример, но с использованием Excel вместо электронных таблиц Google. Очищаются только названия мест, но вы можете легко очистить другую информацию и сохранить ее.
from bs4 import BeautifulSoup
import urllib.request
import bs4 as bs
import xlwt
book = xlwt.Workbook(encoding="utf-8")
sheet1 = book.add_sheet("Sheet 1")
sheet1.write(0, 0, "Names")
url_1 = 'https://www.tripadvisor.com/Restaurants-g188590-Amsterdam_North_Holland_Province.html'
sauce_1 = urllib.request.urlopen(url_1).read()
soup_1 = bs.BeautifulSoup(sauce_1, 'lxml')
x = 1
for names in soup_1.find_all('div',class_='wQjYiB7z'):
sheet1.write(x,0, names.text)
x = x 1
book.save("trial.xls")