Регулярное извлечение импортных данных из таблиц веб-сайта GoogleSheets

#regex #google-sheets #google-sheets-importxml

#регулярное выражение #google-sheets #google-таблицы-формула

Вопрос:

Цель состоит в извлечении заголовка и тегов с веб-страницы.

Я использую importdata и хочу, чтобы все результаты были в 1 строке. Вот так:

 [webpage] [title] [1st tag] [2nd tag] [3 rd tag] [4th tag] ... [last tag]
  

Я застрял на полпути моего процесса в googlesheet

  • первая вкладка Extracted — я извлек необходимые строки из больших данных.

     =query({array_constrain(IMPORTDATA(A1),6375,10)},"WHERE (Col1 CONTAINS 'btn btn-secondary' AND Col1 CONTAINS 'href') or (Col1 CONTAINS 'meta property' AND Col1 CONTAINS 'og:title')")  
  • вторая вкладка with REGEXEXTRACT — извлечен нужный мне текст, но работает только для первой строки (только извлечен tags , title все еще отсутствует, поскольку он распространяется на несколько столбцов …)

    =РЕГУЛЯРНОЕ ИЗВЛЕЧЕНИЕ(запрос({array_constrain(IMPORTDATA(A1),6375,10)},"ГДЕ (Col1 СОДЕРЖИТ 'btn btn-secondary', А Col1 СОДЕРЖИТ 'href')"),">(. )

Я не знаю, как идти дальше:( Любая помощь приветствуется!

Комментарии:

1. Здравствуйте, формулы есть в my process in spreadsheet я просто скопировал их и в вопрос.

Ответ №1:

 =ARRAYFORMULA({REGEXREPLACE(TEXTJOIN(", ",1,
 QUERY(ARRAY_CONSTRAIN(SUBSTITUTE(IMPORTDATA(A2),"""",""),1000,15),
 "where Col1 contains '<meta property=og:title content='")),
 "<meta property=og:title content=| />",""),
 TRANSPOSE(REGEXEXTRACT(QUERY(TRANSPOSE(QUERY(TRANSPOSE(
 ARRAY_CONSTRAIN(SUBSTITUTE(IMPORTDATA(A2),"""",""),8000,3)),,50000)),
 "where Col1 contains '<a class=btn btn-secondary'"),">(.*) <"))})
  

0

демонстрационная электронная таблица

Комментарии:

1. Здравствуйте! 1) После query [Disney Svg Bundle] и [Monogram» />] отсутствуют в названии 2) Это не работает по этой ссылке (это также ссылка на продукт Etsy) @player0