Добавление данных в таблицу Azure Databricks / Hive

#azure #apache-spark #hive #azure-databricks #azure-data-lake

Вопрос:

У меня есть главная таблица в базе данных Azure. Я хочу добавить к нему данные из файлов parquet. Каждый файл parquet содержит подмножество всех возможных столбцов. Я читаю файлы паркета вот так:

 val DF = sparkSession.read.format("parquet").load(file)
 

Главная таблица открывается следующим образом:

 sparkSession.table(tabName)
 

Как добавить новые данные с оптимальной производительностью и без конфликтов схем?