Xpath Удаляет веб-сайт разработчика из Google Play

#web-scraping #google-sheets #xpath #google-sheets-formula #google-query-language

Вопрос:

Я новичок в xpath и соскабливании страниц. Мне нужно извлечь ссылку на веб-сайт разработчика со страницы приложения Google Play (Разработчик — > Посетить веб-сайт) с помощью функции importxml в Google таблицах. Попробовал несколько подходов, не сработало:

Начато с //main importxml(ссылка; «//main/c-wiz[3]/div[1]/div[2]/div//div[9]/div/span/div/span/div/@href») Полный xpath из консоли разработчика
importxml(ссылка; «//div[4]/c-wiz/div/div[2]/div/div/main/c-wiz[3]/div[1]/div[2]/div/div[9]/span/div/span/div[1]/a/@href»)

Прежде чем выскабливание Гугл Плей страницы, у меня была аналогичная задача для AppStore и придумал следующую формулу, которая не работает на Google играть: importxml(ссылка; «//разделе[содержит(@класс,’раздел—по ссылке-список’)]/ул/батарея Li[1]/а/@href, в»)

Для меня сейчас главная проблема в том, что путь к ссылке на сайт правильный в первых двух случаях, но я вообще не могу получить ни одной ссылки. Не могли бы вы, пожалуйста, посоветовать мне, как правильно его почистить?

Заранее благодарю вас!

1. Пожалуйста, поделитесь ссылкой. Вероятно, контент генерируется JavaScript, который IMPORTXML не может получить контент.

2. Взгляните сюда webapps.stackexchange.com/questions/115664/… и проверьте, добавляется ли содержимое динамически.

3. К вашему сведению, это скребок (и скребок , скребок , скребок ), а не лом. «Сдать в утиль» и «сдать в утиль» означают выбрасывать вещи, как мусор 🙁

4. хорошо, спасибо тебе! не знал, что

Ответ №1:

пробовать:

 =REGEXEXTRACT(QUERY(FLATTEN(IMPORTDATA(A1)), 
 "where Col1 starts with 'url:' 
    and Col1 ends with '}'", 0), """(.*)""")

Вопрос:

Комментарии:

Ответ №1:

Вам также может понравиться

Невозможно получить данные со всех страниц в scrapy

проблема с управлением текстовым полем asp

получение случайного элемента из группы строк в xlsx-файле на python