#web-scraping #google-sheets #xpath #google-sheets-formula #google-query-language
Вопрос:
Я новичок в xpath и соскабливании страниц. Мне нужно извлечь ссылку на веб-сайт разработчика со страницы приложения Google Play (Разработчик — > Посетить веб-сайт) с помощью функции importxml в Google таблицах. Попробовал несколько подходов, не сработало:
- Начато с //main importxml(ссылка; «//main/c-wiz[3]/div[1]/div[2]/div//div[9]/div/span/div/span/div/@href») Полный xpath из консоли разработчика
- importxml(ссылка; «//div[4]/c-wiz/div/div[2]/div/div/main/c-wiz[3]/div[1]/div[2]/div/div[9]/span/div/span/div[1]/a/@href»)
Прежде чем выскабливание Гугл Плей страницы, у меня была аналогичная задача для AppStore и придумал следующую формулу, которая не работает на Google играть: importxml(ссылка; «//разделе[содержит(@класс,’раздел—по ссылке-список’)]/ул/батарея Li[1]/а/@href, в»)
Для меня сейчас главная проблема в том, что путь к ссылке на сайт правильный в первых двух случаях, но я вообще не могу получить ни одной ссылки. Не могли бы вы, пожалуйста, посоветовать мне, как правильно его почистить?
Заранее благодарю вас!
Комментарии:
1. Пожалуйста, поделитесь ссылкой. Вероятно, контент генерируется JavaScript, который
IMPORTXML
не может получить контент.2. Взгляните сюда webapps.stackexchange.com/questions/115664/… и проверьте, добавляется ли содержимое динамически.
3. К вашему сведению, это скребок (и скребок , скребок , скребок ), а не лом. «Сдать в утиль» и «сдать в утиль» означают выбрасывать вещи, как мусор 🙁
4. хорошо, спасибо тебе! не знал, что