Каковы файлы _STARTED_, _COMMITTED_ и _SUCCESS_ в паркетном столе Spark?

#apache-spark #parquet

Вопрос:

Каковы НАЧАТЫЕ, ЗАФИКСИРОВАННЫЕ и УСПЕШНЫЕ файлы , которые создаются в базовой папке хранилища при написании/создании паркетной таблицы Spark? Может ли быть несколько таких файлов? Если да, то что значит иметь более одного из них?

Спасибо.

Комментарии:

1. Это протокол обязательств, прочтите здесь или посмотрите это видео

Ответ №1:

Эти файлы хранятся там по транзакционному протоколу DBIO.

При фиксации транзакций DBIO файлы метаданных начинаются с _started_<id> _committed_<id> файлов данных, созданных заданиями Spark, и сопровождают их. Как правило, вы не должны изменять эти файлы напрямую. Скорее всего, вы должны использовать команду VACUUM для их очистки.

https://docs.databricks.com/spark/latest/spark-sql/dbio-commit.html