#apache-spark #filter #split
#apache-spark #Фильтр #разделение
Вопрос:
1,John,NY
2,Bill,FL
3,Harry,TX
У меня есть текстовый файл с указанными выше данными.
val rdd = sc.textFile("/path").map(x=>(x.split(",")(0).toInt,x.split(",")(1),x.split(",")(2)))
После этого как я могу фильтровать данные, где имя — счет или число> 2? Или есть другой способ сделать это без функции разделения?
Ответ №1:
Используйте filter
функцию.
df
.map(x=>(x.split(",")(0).toInt,x.split(",")(1),x.split(",")(2)))
.filter(row => row._2 == "Bill" || row._1 > 2)