Задание AWS Glue ETL запускается при пакетах событий S3

#amazon-web-services #bigdata #etl #aws-glue

#amazon-web-services #bigdata #etl #aws-glue

Вопрос:

У меня есть корзина S3, в которую попадает много файлов (1000 записей в минуту). Я хочу запустить задание Glue ETL для пакетов этих удаляемых файлов.

Я рассматривал возможность использования Firehose для объединения пакетов событий, но для этого требуется много связанных ресурсов. Например, S3 -> Lambda -> Firehose -> …

Каков наилучший способ пакетной обработки моих данных?

Ответ №1:

Вы можете использовать триггеры заданий AWS Glue, которые позволят вам запускать задание glue с запланированными интервалами, а не как триггер события S3?

Обрабатываете ли вы потоковые данные? Не вижу варианта использования / назначения для Firehose с вашей ограниченной информацией.

Комментарии:

1. Firehose имеет небольшой размер пакета для нашего приложения, если мы передаем фактические данные. Передаваемые нами записи — это просто указатели на файлы в S3, но нам нужно обрабатывать эти файлы большими пакетами.