Объединение производительности фреймов данных в Spark

#apache-spark #apache-spark-sql Вопрос: Я соединяю два кадра данных, которые считывают csv-файлы из s3, и объединение их с помощью df.join этого занимает 9 минут при использовании по умолчанию spark.sql.shuffle.partitions (200). Когда…

Продолжить чтениеОбъединение производительности фреймов данных в Spark