#pyspark #amazon-athena #delta-lake #aws-glue-data-catalog
#pyspark #amazon-athena #delta-lake #aws-glue-data-catalog
Вопрос:
Я использую автономный spark (pyspark) 3.0 с delta 0.7.0 на экземпляре EC2. Может кто-нибудь направить меня к руководству о том, как перейти на каталог клея из каталога метастора Hive (на derby).
Если это имеет смысл, цель состоит в том, чтобы задания Spark использовали тот же каталог, что и Athena, автоматизированным способом. Это означает, что когда изменение схемы / новый раздел / новая таблица / изменение таблицы происходит на уровне каталога Delta, оно должно быть распространено на каталог клея
Спасибо!
Комментарии:
1. вы пробовали github.com/aws-samples/aws-glue-samples/tree/master/utilities /…
2. Это определенно имеет смысл, но, возможно, было бы проще использовать EMR 6.1.0, который поставляется с Spark 3.0, и установить Delta lake поверх него. Существует руководство по использованию каталога клея в EMR .
3. спасибо за ваш комментарий @Philipp-johannis, я хотел бы продолжить текущую настройку. Экземпляр EC2 обслуживает дополнительные процессы, и развертывание дополнительного EMR не входит в мой бюджет
4. @PrabhakrReddy, то, что вы предложили, — это переход из хранилища метафор Hive в каталог Glue, но это все еще не отвечает требованиям о том, как подключить один и тот же каталог как к Spark Delta (запись / чтение), так и к Athena (чтение)