#apache-spark #parquet
Вопрос:
Каковы НАЧАТЫЕ, ЗАФИКСИРОВАННЫЕ и УСПЕШНЫЕ файлы , которые создаются в базовой папке хранилища при написании/создании паркетной таблицы Spark? Может ли быть несколько таких файлов? Если да, то что значит иметь более одного из них?
Спасибо.
Комментарии:
1. Это протокол обязательств, прочтите здесь или посмотрите это видео
Ответ №1:
Эти файлы хранятся там по транзакционному протоколу DBIO.
При фиксации транзакций DBIO файлы метаданных начинаются с
_started_<id>
_committed_<id>
файлов данных, созданных заданиями Spark, и сопровождают их. Как правило, вы не должны изменять эти файлы напрямую. Скорее всего, вы должны использовать команду VACUUM для их очистки.
https://docs.databricks.com/spark/latest/spark-sql/dbio-commit.html