#apache-spark #hadoop #optimization #pyspark #apache-spark-sql
#apache-spark #hadoop #оптимизация #pyspark #apache-spark-sql
Вопрос:
Когда мы получаем много сбоев этапа, мы обычно перезапускаем кластер, чтобы избежать сбоев этапа. Я хочу знать
1) Что именно происходит, когда мы перезапускаем его.
2) Удаляет ли метаданные / кэш из кластера?
3) Есть ли какой-либо другой способ выполнить вышеуказанное требование без перезапуска кластера.
Ответ №1:
При перезапуске кластера приложение spark инициализируется заново, как будто буквально с нуля весь кэш в кластерах стирается.
Вы увидите это в журналах драйверов кластера при перезапуске, инициализации spark и загрузке всех библиотек, загружающих metastore и DBFS.
Единственное, чего не делает немедленная быстрая перезагрузка (с интервалом не более ~ 5 минут), — это не отменяет просмотр базового экземпляра виртуальной машины, на котором размещено приложение. Если вы считаете, что виртуальная машина находится в плохом состоянии, завершите работу — дайте перерыв в 5 минут и начните снова. (это не работает с кластерами над пулом, поскольку пулы поддерживают виртуальные машины даже после завершения.