Избегающие искр перетасовки с похожими (но немного отличающимися) соединениями
#apache-spark #apache-spark-sql Вопрос: Предположим, у меня есть ряд кадров данных, соединенных вместе с немного разными наборами столбцов df1.join(df2, Seq("order_id", "customer_id")) .join(df3, Seq("order_id")) .join(df3, Seq("order_id", "month")) ... Все соединения включают order_id…