Как найти максимальное значение с помощью RDD aggregate () и groupBy () в PySpark

ProgramBox

Как найти максимальное значение с помощью RDD aggregate () и groupBy () в PySpark

Post author:admin
Запись опубликована:2 сентября, 2022
Post category:Вопросы по программированию

#python #apache-spark #pyspark #rdd

Вопрос:

Я пытаюсь найти максимальное значение в пределах RDD для общего количества каждой страны. Для справки, данные, которые я использую, представлены здесь в этом формате. Я хотел бы решить эту проблему, используя rdd.aggregate(zero, seqOp, combOp) и rdd.groupBy() , пожалуйста, чтобы лучше понять, как они работают вместе.

Я проделал много проб и ошибок с помощью aggregate(), но я не могу понять, как сформулировать лямбда-функции для определения максимальных значений.

Метки: Как найти максимальное значение с помощью RDD aggregate () и groupBy () в PySpark

Вопрос:

Вам также может понравиться

Изменить язык в Google maps v2 api

Ежемесячная климатология в течение нескольких лет, повторяемая каждый день в этом месяце в течение всех лет

Как я могу обнаружить и распознать цифры в ключе ответа, подобном данному изображению?