Xpath Удаляет веб-сайт разработчика из Google Play

#web-scraping #google-sheets #xpath #google-sheets-formula #google-query-language

Вопрос:

Я новичок в xpath и соскабливании страниц. Мне нужно извлечь ссылку на веб-сайт разработчика со страницы приложения Google Play (Разработчик — > Посетить веб-сайт) с помощью функции importxml в Google таблицах. Попробовал несколько подходов, не сработало:

  1. Начато с //main importxml(ссылка; «//main/c-wiz[3]/div[1]/div[2]/div//div[9]/div/span/div/span/div/@href») Полный xpath из консоли разработчика
  2. importxml(ссылка; «//div[4]/c-wiz/div/div[2]/div/div/main/c-wiz[3]/div[1]/div[2]/div/div[9]/span/div/span/div[1]/a/@href»)

Прежде чем выскабливание Гугл Плей страницы, у меня была аналогичная задача для AppStore и придумал следующую формулу, которая не работает на Google играть: importxml(ссылка; «//разделе[содержит(@класс,’раздел—по ссылке-список’)]/ул/батарея Li[1]/а/@href, в»)

Для меня сейчас главная проблема в том, что путь к ссылке на сайт правильный в первых двух случаях, но я вообще не могу получить ни одной ссылки. Не могли бы вы, пожалуйста, посоветовать мне, как правильно его почистить?

Заранее благодарю вас!

Комментарии:

1. Пожалуйста, поделитесь ссылкой. Вероятно, контент генерируется JavaScript, который IMPORTXML не может получить контент.

2. Взгляните сюда webapps.stackexchange.com/questions/115664/… и проверьте, добавляется ли содержимое динамически.

3. К вашему сведению, это скребок скребок , скребок , скребок ), а не лом. «Сдать в утиль» и «сдать в утиль» означают выбрасывать вещи, как мусор 🙁

4. хорошо, спасибо тебе! не знал, что

Ответ №1:

пробовать:

 =REGEXEXTRACT(QUERY(FLATTEN(IMPORTDATA(A1)), 
 "where Col1 starts with 'url:' 
    and Col1 ends with '}'", 0), """(.*)""")
 

введите описание изображения здесь

введите описание изображения здесь