#azure-databricks #delta-lake
#apache-spark #azure-databricks #дельта-озеро
Вопрос:
Я сохраняю свой spark dataframe в Azure databricks и создаю таблицу delta lake.
Он работает нормально, однако я получаю это предупреждающее сообщение во время выполнения.
Вопрос — Почему я все еще получаю это сообщение, даже если моя таблица является дельта-таблицей. Что не так с моим подходом, любые входные данные приветствуются.
Предупреждающее сообщение
Этот запрос содержит высокоселективный фильтр. Чтобы повысить производительность запросов, преобразуйте таблицу в дельта-формат и запустите команду ОПТИМИЗИРОВАТЬ ZORDER BY для таблицы
Код
dfMerged.write
.partitionBy("Date")
.mode("append")
.format("delta")
.option("overwriteSchema", "true")
.save("/mnt/path..")
spark.sql("CREATE TABLE DeltaUDTable USING DELTA LOCATION '/mnt/path..'")
Еще несколько деталей
- Я подключил Azure Storage gen 2 к указанному выше местоположению для монтирования.
- среда выполнения databricks — 6.4 (включает Apache Spark 2.4.5, Scala 2.11)
Комментарии:
1. думаю, что предупреждающее сообщение вводит в заблуждение
2. спасибо @thebluephantom за ваш вклад, я так и думал. Я продолжу и закрою этот пост.
3. @thebluephantom Вы хотели бы опубликовать это в качестве ответа, чтобы пометить этот вопрос как ответ?
4. Хорошо, это круто.
Ответ №1:
Предупреждающее сообщение явно вводит в заблуждение, поскольку у вас уже есть опция Delta. Игнорируйте это.
Ответ №2:
df.write.mode(«перезапись»).saveAsTable(«table_loc»)