Время преобразования фрейма данных PySpark в фрейм данных pandas

#python-3.x #apache-spark #pyspark

Вопрос:

Предположим, у нас есть два фрейма данных PySpark df1 и df2 с одной и той же схемой. Предположим id , что это ключ для обоих фреймов данных и df1 содержит идентификаторы 1, 2, 3, 4, 5, 6, 7 и df2 содержит идентификаторы 8, 9, 10 .

Будет ли какая-либо из этих операций ( toPandas() операций) занимать значительно больше времени, чем другие:

 ids = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10] df_combined = df1.union(df2) df_combined = df_combined.filter(df_combined.id.isin(ids))  df_pd = df_combined.toPandas()  

против

 df_pd = df1.toPandas()