#pyspark
#pyspark
Вопрос:
У меня есть два RDD, и я хотел бы объединить их вместе, используя pyspark
first_rdd = ['Mike', 'Kate', 'Robert']
second_rdd = [23, 45, 67]
result_rdd = [('Mike', 23), ('Kate', 45), ('Robert', 67)]
Заранее спасибо
Ответ №1:
>>> first_rdd=sc.parallelize( ['Mike', 'Kate', 'Robert'])
>>> second_rdd=sc.parallelize([23, 45, 67])
>>> result_rdd=first_rdd.zipWithIndex().map(lambda x: (x[1],x[0])).join(second_rdd.zipWithIndex().map(lambda x: (x[1],x[0]))).map(lambda x : x[1])
>>> result_rdd.collect()
[('Mike', 23), ('Kate', 45), ('Robert', 67)]