#regex #google-sheets #google-sheets-importxml
#регулярное выражение #google-sheets #google-таблицы-формула
Вопрос:
Цель состоит в извлечении заголовка и тегов с веб-страницы.
Я использую importdata
и хочу, чтобы все результаты были в 1 строке. Вот так:
[webpage] [title] [1st tag] [2nd tag] [3 rd tag] [4th tag] ... [last tag]
Я застрял на полпути моего процесса в googlesheet
-
первая вкладка
Extracted
— я извлек необходимые строки из больших данных.=query({array_constrain(IMPORTDATA(A1),6375,10)},"WHERE (Col1 CONTAINS 'btn btn-secondary' AND Col1 CONTAINS 'href') or (Col1 CONTAINS 'meta property' AND Col1 CONTAINS 'og:title')")
-
вторая вкладка
with REGEXEXTRACT
— извлечен нужный мне текст, но работает только для первой строки (только извлеченtags
,title
все еще отсутствует, поскольку он распространяется на несколько столбцов …)=РЕГУЛЯРНОЕ ИЗВЛЕЧЕНИЕ(запрос({array_constrain(IMPORTDATA(A1),6375,10)},"ГДЕ (Col1 СОДЕРЖИТ 'btn btn-secondary', А Col1 СОДЕРЖИТ 'href')"),">(. )
Я не знаю, как идти дальше:( Любая помощь приветствуется!
Комментарии:
1. Здравствуйте, формулы есть в
my process in spreadsheet
я просто скопировал их и в вопрос.
Ответ №1:
=ARRAYFORMULA({REGEXREPLACE(TEXTJOIN(", ",1,
QUERY(ARRAY_CONSTRAIN(SUBSTITUTE(IMPORTDATA(A2),"""",""),1000,15),
"where Col1 contains '<meta property=og:title content='")),
"<meta property=og:title content=| />",""),
TRANSPOSE(REGEXEXTRACT(QUERY(TRANSPOSE(QUERY(TRANSPOSE(
ARRAY_CONSTRAIN(SUBSTITUTE(IMPORTDATA(A2),"""",""),8000,3)),,50000)),
"where Col1 contains '<a class=btn btn-secondary'"),">(.*) <"))})
Комментарии:
1. Здравствуйте! 1) После
query
[Disney Svg Bundle] и [Monogram» />] отсутствуют в названии 2) Это не работает по этой ссылке (это также ссылка на продукт Etsy) @player0