Загрузка дельта-таблицы базы данных занимает много времени для загрузки 1 перекода

#apache-spark #databricks

Вопрос:

Всякий раз, когда работает записная книжка databricks, я пытаюсь вставить 1 запись в дельта-таблицу, но это занимает около 70 секунд. Я передаю start_time в качестве переменной.

 val batchDf= Seq((1000, 40, start_time, null, null, status)).toDF("Key", "RunId", "Start_Time", "End_Time", "Duration", "In-progress")

batchDf.write.format("delta").mode("append").saveAsTable("t_audit")
 

Есть идеи, почему загрузка 1 записи в дельта-таблицу занимает так много времени? Я бы ожидал, что это закончится менее чем за 5 секунд.

Ответ №1:

Базы данных ужасно медленные по сравнению со всем, что я использовал за последние 30 лет, но в вашем случае это может быть связано с автоматической оптимизацией

Комментарии:

1. Спасибо! но это не помогло! любой другой формат таблицы лучше, чем Delta?

2. Delta основана на формате паркета, возможно, вы захотите вместо этого попробовать написать формат паркета, чтобы посмотреть, улучшит ли он производительность.