Как объединить два списка Spark RDD в список кортежей

#pyspark

#pyspark

Вопрос:

У меня есть два RDD, и я хотел бы объединить их вместе, используя pyspark

 first_rdd = ['Mike', 'Kate', 'Robert']

second_rdd = [23, 45, 67]

result_rdd = [('Mike', 23), ('Kate', 45), ('Robert', 67)]
 

Заранее спасибо

Ответ №1:

 >>> first_rdd=sc.parallelize( ['Mike', 'Kate', 'Robert'])
>>> second_rdd=sc.parallelize([23, 45, 67])
>>> result_rdd=first_rdd.zipWithIndex().map(lambda x: (x[1],x[0])).join(second_rdd.zipWithIndex().map(lambda x: (x[1],x[0]))).map(lambda x : x[1])
>>> result_rdd.collect()
[('Mike', 23), ('Kate', 45), ('Robert', 67)]