#python #dataframe #pyspark #rdd
#python #фрейм данных #pyspark #rdd
Вопрос:
Я пытаюсь преобразовать RDD в dataframe, но я продолжаю получать ошибку несоответствующего ввода. Что мне нужно изменить?
from pyspark.sql.functions import col
from pyspark.sql import Row
from pyspark.sql.types import *
from pyspark.sql.functions import desc
from pyspark.sql.functions import SparkContext
Text = "/content/birds.txt"
Words = sc.textFile(Text).flatMap(lambda line: line.split(" ")).map(lambda word: (word,
1)).reduceByKey(lambda x, y: x y)
print(Words)
# Convert word-count RDD to dataframe with 2 columns ["Name","Number"]
rwdf = words.toDF("Name", "Number")
rwdf.show(5)
Комментарии:
1. ваш RDD — это сообщение, а не слова.
2.
rwdf = Words.toDF(["Name", "Number"])
3. Спасибо, это сработало. Я не могу поверить, что это была такая простая ошибка.