#python-3.x #apache-spark #pyspark
Вопрос:
Предположим, у нас есть два фрейма данных PySpark df1
и df2
с одной и той же схемой. Предположим id
, что это ключ для обоих фреймов данных и df1
содержит идентификаторы 1, 2, 3, 4, 5, 6, 7
и df2
содержит идентификаторы 8, 9, 10
.
Будет ли какая-либо из этих операций ( toPandas()
операций) занимать значительно больше времени, чем другие:
ids = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10] df_combined = df1.union(df2) df_combined = df_combined.filter(df_combined.id.isin(ids)) df_pd = df_combined.toPandas()
против
df_pd = df1.toPandas()