Как найти максимальное значение с помощью RDD aggregate () и groupBy () в PySpark

#python #apache-spark #pyspark #rdd

#python #apache-spark #pyspark #rdd

Вопрос:

Я пытаюсь найти максимальное значение в пределах RDD для общего количества каждой страны. Для справки, данные, которые я использую, представлены здесь в этом формате. Я хотел бы решить эту проблему, используя rdd.aggregate(zero, seqOp, combOp) и rdd.groupBy() , пожалуйста, чтобы лучше понять, как они работают вместе.

Я проделал много проб и ошибок с помощью aggregate(), но я не могу понять, как сформулировать лямбда-функции для определения максимальных значений.