#apache-spark #pyspark #kerberos #mlflow #hdp
Вопрос:
В настоящее время я тестирую mlflow для регистрации моделей pyspark в кластере HDP3.1.x, КЕРБЕРИЗОВАННОМ. Я настроил mlflow на использование HDFS (того же кластера HDP) для хранения моделей.
Всякий раз, когда я запускаю процесс pyspark для регистрации модели в MLflow с помощью «spark-submit —deploy-mode=кластер…», у меня возникает исключение
AccessControlException: Клиент не может пройти аутентификацию через:[ТОКЕН, KERBEROS]Исключение java.io.IOException: Адрес назначения:имя порта 01.hdp.сайт:8020 , локальный адрес:рабочий порт05.hdp.сайт/192.168.0.208:0. Ошибка при локальном исключении: исключение java.io.IOException: org.apache.hadoop.security.AccessControlException: Клиент не может пройти аутентификацию с помощью:[ТОКЕН, KERBEROS]
(…)
Вызвано: java.io.IOException: org.apache.hadoop.security.AccessControlException: Клиент не может пройти аутентификацию с помощью:[ТОКЕН, KERBEROS] в org.apache.hadoop.ipc.Client$Подключение$1.запустите(Клиент.java:758) в java.security.Контроллер доступа.Допривилегирован(Собственный метод) в javax.security.auth.Тема.doAs(Тема.java:422)*
Похоже, что libhdfs, используемые mlflow, не могут должным образом аутентифицироваться с помощью токенов делегирования. Знаете ли вы какой-либо способ исправить или обойти эту проблему?
Спасибо