df.выберите() или создайте временную таблицу, затем spark.sql(«ВЫБЕРИТЕ…»)?

#apache-spark #pyspark #apache-spark-sql

Вопрос:

Если обе команды spark выполняют почти одно и то же, что я должен учитывать при выборе той или иной?

Ответ №1:

В основном это просто вопрос стиля, с которым вы хотели бы работать. Spark сгенерирует план для фактического выполнения в любом случае

Один момент для SQL заключается в том, что его относительно проще генерировать, если вам это нужно