Преобразование фрейма данных spark в дельта-таблицу в Azure databricks — предупреждение

#azure-databricks #delta-lake

#apache-spark #azure-databricks #дельта-озеро

Вопрос:

Я сохраняю свой spark dataframe в Azure databricks и создаю таблицу delta lake.

Он работает нормально, однако я получаю это предупреждающее сообщение во время выполнения.

Вопрос — Почему я все еще получаю это сообщение, даже если моя таблица является дельта-таблицей. Что не так с моим подходом, любые входные данные приветствуются.

Предупреждающее сообщение

Этот запрос содержит высокоселективный фильтр. Чтобы повысить производительность запросов, преобразуйте таблицу в дельта-формат и запустите команду ОПТИМИЗИРОВАТЬ ZORDER BY для таблицы

Код

 dfMerged.write
              .partitionBy("Date")
              .mode("append")
              .format("delta")
              .option("overwriteSchema", "true")
              .save("/mnt/path..")

spark.sql("CREATE TABLE DeltaUDTable USING DELTA LOCATION '/mnt/path..'")
  

Еще несколько деталей

  1. Я подключил Azure Storage gen 2 к указанному выше местоположению для монтирования.
  2. среда выполнения databricks — 6.4 (включает Apache Spark 2.4.5, Scala 2.11)

Комментарии:

1. думаю, что предупреждающее сообщение вводит в заблуждение

2. спасибо @thebluephantom за ваш вклад, я так и думал. Я продолжу и закрою этот пост.

3. @thebluephantom Вы хотели бы опубликовать это в качестве ответа, чтобы пометить этот вопрос как ответ?

4. Хорошо, это круто.

Ответ №1:

Предупреждающее сообщение явно вводит в заблуждение, поскольку у вас уже есть опция Delta. Игнорируйте это.

Ответ №2:

df.write.mode(«перезапись»).saveAsTable(«table_loc»)