Как мне остановить преобразование фрейма данных pyspark в список?

#pyspark #apache-spark-sql

#pyspark #apache-spark-sql

Вопрос:

Я начинаю с фрейма данных pyspark и преобразуюсь в список после того, как я использую .take() для него. Как я могу сохранить его как фрейм данных pyspark?

     df1 = Ce_clean
    print(type(df1))
    df1 = df1.take(1000)
    print(type(df1))
  

Фрейм данных ‘>

<класс ‘список’>

Ответ №1:

Вы можете либо преобразовать RDD/list в df, либо использовать limit(n)

  df2 = spark.createDataFrame(df1.take(100))
 type(df2)
 <class 'pyspark.sql.dataframe.DataFrame'>
  

или

  df3 = df1.limit(100)
 type(df3)
 <class 'pyspark.sql.dataframe.DataFrame'>