Фильтрация значений массива с помощью pyspark

#apache-spark #pyspark #apache-spark-sql #rdd

Вопрос:

Я новичок в pyspark и нуждаюсь в решении приведенного ниже вопроса.

В массиве [[-1,1,2,4,5],[3,5,6,-6]], удалите элементы, которые равны <=0, и получите квадрат положительных ненулевых чисел.

Ответ №1:

Используйте transform функции и filter функции более высокого порядка.

 df.printSchema()
root
 |-- ids: array (nullable = true)
 |    |-- element: array (containsNull = true)
 |    |    |-- element: integer (containsNull = false)

 from pyspark.sql import functions as F

df.withColumn("new_ids",F.expr("transform(ids,o -> filter(o, i  -> i > 0))")).show()
 --------------------------------- ------------------------- 
|ids                              |new_ids                  |
 --------------------------------- ------------------------- 
|[[-1, 1, 2, 4, 5], [3, 5, 6, -6]]|[[1, 2, 4, 5], [3, 5, 6]]|
 --------------------------------- -------------------------

Фильтрация значений массива с помощью pyspark

Вопрос:

Комментарии:

Ответ №1:

Комментарии:

Вопрос:

Комментарии:

Ответ №1:

Комментарии:

Вам также может понравиться

найдите дублированный ввод в td и обновите количество и общее количество в корзине покупок

Что может привести к недействительному токену, неправильному запросу с помощью API календаря Google, но только для нескольких пользователей

Передача параметра id из коллекции Laravel компоненту Vue