Как фильтровать после split() в rdd spark scala?

#apache-spark #filter #split

#apache-spark #Фильтр #разделение

Вопрос:

 1,John,NY
2,Bill,FL
3,Harry,TX
 

У меня есть текстовый файл с указанными выше данными.

 val rdd = sc.textFile("/path").map(x=>(x.split(",")(0).toInt,x.split(",")(1),x.split(",")(2)))
 

После этого как я могу фильтровать данные, где имя — счет или число> 2? Или есть другой способ сделать это без функции разделения?

Ответ №1:

Используйте filter функцию.

 df
.map(x=>(x.split(",")(0).toInt,x.split(",")(1),x.split(",")(2)))
.filter(row => row._2 == "Bill" || row._1 > 2)