Spark 3.0 -> Delta Lake 0.7.0 Каталог клея AWS -> Athena — внедрение интеграции

#pyspark #amazon-athena #delta-lake #aws-glue-data-catalog

#pyspark #amazon-athena #delta-lake #aws-glue-data-catalog

Вопрос:

Я использую автономный spark (pyspark) 3.0 с delta 0.7.0 на экземпляре EC2. Может кто-нибудь направить меня к руководству о том, как перейти на каталог клея из каталога метастора Hive (на derby).

Если это имеет смысл, цель состоит в том, чтобы задания Spark использовали тот же каталог, что и Athena, автоматизированным способом. Это означает, что когда изменение схемы / новый раздел / новая таблица / изменение таблицы происходит на уровне каталога Delta, оно должно быть распространено на каталог клея

Спасибо!

Комментарии:

1. вы пробовали github.com/aws-samples/aws-glue-samples/tree/master/utilities /…

2. Это определенно имеет смысл, но, возможно, было бы проще использовать EMR 6.1.0, который поставляется с Spark 3.0, и установить Delta lake поверх него. Существует руководство по использованию каталога клея в EMR .

3. спасибо за ваш комментарий @Philipp-johannis, я хотел бы продолжить текущую настройку. Экземпляр EC2 обслуживает дополнительные процессы, и развертывание дополнительного EMR не входит в мой бюджет

4. @PrabhakrReddy, то, что вы предложили, — это переход из хранилища метафор Hive в каталог Glue, но это все еще не отвечает требованиям о том, как подключить один и тот же каталог как к Spark Delta (запись / чтение), так и к Athena (чтение)