#pyspark #metadata #azure-databricks #delta #delta-lake
#pyspark #метаданные #azure-databricks #дельта-озеро
Вопрос:
Hive хранит свои метаданные во внешней базе данных, такой как SQL Server. Аналогично тому, где databricks delta хранит свои метаданные?
Ответ №1:
Databricks Delta хранит свои метаданные в файловой системе. Это просто файлы либо в формате json (для каждой транзакции), либо в формате parquet (для моментального снимка метаданных таблицы в некоторой версии).
Комментарии:
1. Метаданные просто хранятся вместе с файлами данных. Вы можете видеть, что в вашем каталоге Delta table есть каталог с именем «_delta_log». Если вы используете S3 для хранения данных, метаданные также находятся на S3. Однако метаданные не могут быть сохранены в базе данных, потому что это не масштабируется.
2. Понял… Понятно