#python #apache-spark #pyspark #rdd
#python #apache-spark #pyspark #rdd
Вопрос:
Я пытаюсь найти максимальное значение в пределах RDD для общего количества каждой страны. Для справки, данные, которые я использую, представлены здесь в этом формате. Я хотел бы решить эту проблему, используя rdd.aggregate(zero, seqOp, combOp)
и rdd.groupBy()
, пожалуйста, чтобы лучше понять, как они работают вместе.
Я проделал много проб и ошибок с помощью aggregate(), но я не могу понять, как сформулировать лямбда-функции для определения максимальных значений.