#hadoop #apache-pig
#hadoop #apache-pig
Вопрос:
Я пытаюсь изучить Hadoop / Pig и работаю над AWS,
Дата выглядит следующим образом (каждый столбец содержит различные веб-сайты):
<http://openean.kaufkauf.net/id/businessentities/GLN_7654990000088>
<http://www.w3.org/2000/01/rdf-schema#isDefinedBy>
<http://openean.kaufkauf.net/id/businessentities/>
<http://openean.kaufkauf.net/id/businessentities/GLN_6406510000068> .
Я пытаюсь отфильтровать строки, содержащие в них «бизнес», но фильтр продолжает возвращать 0 записей. my_data отформатирован, как указано выше, с 3 столбцами, а первый столбец — это тема, которая отображается выше и по которой я пытаюсь отфильтровать. У меня есть:
filter1 = FILTER my_data BY subject=='.*business.*';
Не уверен, почему это ничего не возвращает, поскольку «бизнес» определенно присутствует в 3 записях.
Ответ №1:
Попробуйте это
filter1 = FILTER my_data BY (subject matches '.* business.*');