Хотите прояснить общую картину о AWS Glue

#amazon-web-services #pyspark #aws-glue

#amazon-веб-сервисы #pyspark #aws-glue

Вопрос:

Я хочу прояснить общую картину об aws Glue в отношении некоторых из следующих аспектов.

  1. Как AWS Glue подготавливает и предоставляет свою инфраструктуру? Однако он бессерверный, но как он с этим справляется?

  2. Как он использует apache spark и hadoop для одновременного решения стольких задач ETL, почти для сотен клиентов AWS Glue из всех регионов.

Спасибо

Ответ №1:

AWS Glue использует EMR в нижней части. При запуске нового задания создается новый кластер с необходимым количеством исполнителей (в зависимости от настроенного DPU). Однако, чтобы сократить время холодного запуска, у них есть буфер из уже подготовленных кластеров EMR для наиболее распространенного числа DPO. Для управления всем этим у них есть набор автоматизированных сервисов, которые отслеживают состояние каждого кластера, запускают новые и т.д.