Фильтрация с сопоставлением в Hadoop / Pig

#hadoop #apache-pig

#hadoop #apache-pig

Вопрос:

Я пытаюсь изучить Hadoop / Pig и работаю над AWS,

Дата выглядит следующим образом (каждый столбец содержит различные веб-сайты):

  <http://openean.kaufkauf.net/id/businessentities/GLN_7654990000088> 
 <http://www.w3.org/2000/01/rdf-schema#isDefinedBy> 
 <http://openean.kaufkauf.net/id/businessentities/> 
 <http://openean.kaufkauf.net/id/businessentities/GLN_6406510000068> .
  

Я пытаюсь отфильтровать строки, содержащие в них «бизнес», но фильтр продолжает возвращать 0 записей. my_data отформатирован, как указано выше, с 3 столбцами, а первый столбец — это тема, которая отображается выше и по которой я пытаюсь отфильтровать. У меня есть:

 filter1 = FILTER my_data BY subject=='.*business.*';
  

Не уверен, почему это ничего не возвращает, поскольку «бизнес» определенно присутствует в 3 записях.

Ответ №1:

Попробуйте это

 filter1 = FILTER my_data BY (subject matches '.* business.*');