Что происходит внутри, когда мы перезапускаем кластер Azure Databricks?

#apache-spark #hadoop #optimization #pyspark #apache-spark-sql

#apache-spark #hadoop #оптимизация #pyspark #apache-spark-sql

Вопрос:

Когда мы получаем много сбоев этапа, мы обычно перезапускаем кластер, чтобы избежать сбоев этапа. Я хочу знать

1) Что именно происходит, когда мы перезапускаем его.

2) Удаляет ли метаданные / кэш из кластера?

3) Есть ли какой-либо другой способ выполнить вышеуказанное требование без перезапуска кластера.

Ответ №1:

При перезапуске кластера приложение spark инициализируется заново, как будто буквально с нуля весь кэш в кластерах стирается.

Вы увидите это в журналах драйверов кластера при перезапуске, инициализации spark и загрузке всех библиотек, загружающих metastore и DBFS.

Единственное, чего не делает немедленная быстрая перезагрузка (с интервалом не более ~ 5 минут), — это не отменяет просмотр базового экземпляра виртуальной машины, на котором размещено приложение. Если вы считаете, что виртуальная машина находится в плохом состоянии, завершите работу — дайте перерыв в 5 минут и начните снова. (это не работает с кластерами над пулом, поскольку пулы поддерживают виртуальные машины даже после завершения.