Где databricks delta хранит свои метаданные?

#pyspark #metadata #azure-databricks #delta #delta-lake

#pyspark #метаданные #azure-databricks #дельта-озеро

Вопрос:

Hive хранит свои метаданные во внешней базе данных, такой как SQL Server. Аналогично тому, где databricks delta хранит свои метаданные?

Ответ №1:

Databricks Delta хранит свои метаданные в файловой системе. Это просто файлы либо в формате json (для каждой транзакции), либо в формате parquet (для моментального снимка метаданных таблицы в некоторой версии).

Комментарии:

1. Метаданные просто хранятся вместе с файлами данных. Вы можете видеть, что в вашем каталоге Delta table есть каталог с именем «_delta_log». Если вы используете S3 для хранения данных, метаданные также находятся на S3. Однако метаданные не могут быть сохранены в базе данных, потому что это не масштабируется.

2. Понял… Понятно