Использование формулы Google Sheet IMPORTXML для извлечения гиперссылок из таблицы на веб-странице и флажка, когда изображение находится в отдельном столбце

#web-scraping #google-sheets #google-sheets-formula

Вопрос:

Я провожу некоторый анализ, который требует от меня сохранения табличных данных и (гиперссылок) ссылок на множество PDF-файлов с веб-страницы (https://www.asx.com.au/asx/v2/statistics/prevBusDayAnns.do).

Я играл с формулами =IMPORTHTML и =IMPORTXML в таблицах Google и сумел извлечь данные таблицы с помощью =IMPORTHTML(A1,"table",1) , но я изо всех сил пытаюсь извлечь «Ценовые ощущения». столбец, содержащий изображения или гиперссылки, прикрепленные к элементам «Заголовок». IMPORTXML До сих пор мне не везет, и, похоже, я не могу найти никаких решений в Интернете.

введите описание изображения здесь

введите описание изображения здесь

Комментарии:

1. что это за URL-адрес??

2. Вам нужно будет окружить функцию INDEX() вокруг функции IMPORTHTML (). IMPORTXML() также может работать до тех пор, пока сайт не использует javascript для создания страницы. Если вы предоставите URL-адрес и конкретную информацию, которую вы ищете, я был бы рад узнать, могу ли я дать вам конкретный ответ.

3. Спасибо за ваши ответы и извините, что пропустили ссылку! Я внес правку после публикации и, должно быть, случайно удалил ее. Я также включил скриншоты, но не похоже, что они загружают eep. Новичок Stackoverflow здесь, ха-ха. @JohnA и игрок 0

Ответ №1:

Формула IMPORTXML , которую вы ищете, такова:

 =IMPORTXML("https://www.asx.com.au/asx/v2/statistics/prevBusDayAnns.do","//*[@id='content']/div/announcement_data/table/tbody/tr")
 

Вам необходимо указать XPATH, который вы можете получить, нажав на элемент в инструментах разработки браузера и выбрав copy > XPATH .

К сожалению, хотя это и дает результат, это точно так же, как и для IMPORTHTML . Столбец чувствительности к цене тоже всегда пуст.

Причина этого в том, что содержимое столбцов чувствительности к цене-это не текст, а изображение, как вы можете видеть на своих скриншотах.

Так что, похоже, вам здесь нужны более мощные инструменты для анализа HTML, чем те, которые предоставляет Google Sheets. Было бы легко искать теги img, если бы вы проанализировали веб-сайт, например, с помощью Python и Beautifulsoup. Так что, возможно, вы захотите пойти по этому пути.

Вот что я использую IMPORTXML , так же, как и вы:

введите описание изображения здесь

Проблема в том, что чувствительность к цене-это img, а не текст:

введите описание изображения здесь