Время преобразования фрейма данных PySpark в фрейм данных pandas

ProgramBox

Время преобразования фрейма данных PySpark в фрейм данных pandas

Post author:admin
Запись опубликована:7 января, 2022
Post category:Вопросы по программированию

#python-3.x #apache-spark #pyspark

Вопрос:

Предположим, у нас есть два фрейма данных PySpark df1 и df2 с одной и той же схемой. Предположим id , что это ключ для обоих фреймов данных и df1 содержит идентификаторы 1, 2, 3, 4, 5, 6, 7 и df2 содержит идентификаторы 8, 9, 10 .

Будет ли какая-либо из этих операций ( toPandas() операций) занимать значительно больше времени, чем другие:

 ids = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10] df_combined = df1.union(df2) df_combined = df_combined.filter(df_combined.id.isin(ids))  df_pd = df_combined.toPandas()

против

 df_pd = df1.toPandas()

Метки: Время преобразования фрейма данных PySpark в фрейм данных pandas

Вопрос:

Вам также может понравиться

Проблема весенней загрузки между jar и задачей, которая создает jar: Gradle

Как исправить npm run dev и npm run watch

iphone google ссылка на встречу не присоединяется к комнате