#apache-spark #hadoop-yarn
Вопрос:
Я новичок в spark . У меня есть 10-узловой кластер Hadoop с одним пограничным узлом. Я отправляю приложение spark с пограничного узла и перенаправляю вывод команды spark-submit в локальный файл на пограничном узле.
Поэтому, когда приложение spark не работает, я могу проверить файл журнала пограничного узла и принять меры .
Когда я читаю о журналах приложений yarn ,говорится, что менеджеры узлов, выполняющие это приложение, войдут в какое-либо местоположение (yarn.nodemanager.log-dir) .
Чем этот журнал nodemanager отличается от журнала пограничных узлов . Может ли кто-нибудь подробно объяснить журналы приложений yarn.
Ответ №1:
«Журналы пограничных узлов» будут журналами приложений драйверов Spark, в которых, скорее всего, будет написано что-то вроде URL to track the Job: <link to YARN UI>
Если вам нужны фактические журналы выполнения Spark, вам нужно посмотреть на отдельных исполнителей Spark через пользовательский интерфейс Spark (который перенаправляется в пользовательский интерфейс YARN, если именно так вы запускаете Spark).
NodeManager (и ResourceManager) — это процесс YARN, имеющий свои собственные журналы и не связанный с вашим кодом Spark