#azure #apache-spark #hive #azure-databricks #azure-data-lake
Вопрос:
У меня есть главная таблица в базе данных Azure. Я хочу добавить к нему данные из файлов parquet. Каждый файл parquet содержит подмножество всех возможных столбцов. Я читаю файлы паркета вот так:
val DF = sparkSession.read.format("parquet").load(file)
Главная таблица открывается следующим образом:
sparkSession.table(tabName)
Как добавить новые данные с оптимальной производительностью и без конфликтов схем?