#amazon-web-services #pyspark #aws-glue
#amazon-веб-сервисы #pyspark #aws-glue
Вопрос:
Я хочу прояснить общую картину об aws Glue в отношении некоторых из следующих аспектов.
-
Как AWS Glue подготавливает и предоставляет свою инфраструктуру? Однако он бессерверный, но как он с этим справляется?
-
Как он использует apache spark и hadoop для одновременного решения стольких задач ETL, почти для сотен клиентов AWS Glue из всех регионов.
Спасибо
Ответ №1:
AWS Glue использует EMR в нижней части. При запуске нового задания создается новый кластер с необходимым количеством исполнителей (в зависимости от настроенного DPU). Однако, чтобы сократить время холодного запуска, у них есть буфер из уже подготовленных кластеров EMR для наиболее распространенного числа DPO. Для управления всем этим у них есть набор автоматизированных сервисов, которые отслеживают состояние каждого кластера, запускают новые и т.д.