#amazon-web-services #bigdata #etl #aws-glue
#amazon-web-services #bigdata #etl #aws-glue
Вопрос:
У меня есть корзина S3, в которую попадает много файлов (1000 записей в минуту). Я хочу запустить задание Glue ETL для пакетов этих удаляемых файлов.
Я рассматривал возможность использования Firehose для объединения пакетов событий, но для этого требуется много связанных ресурсов. Например, S3 -> Lambda -> Firehose -> …
Каков наилучший способ пакетной обработки моих данных?
Ответ №1:
Вы можете использовать триггеры заданий AWS Glue, которые позволят вам запускать задание glue с запланированными интервалами, а не как триггер события S3?
Обрабатываете ли вы потоковые данные? Не вижу варианта использования / назначения для Firehose с вашей ограниченной информацией.
Комментарии:
1. Firehose имеет небольшой размер пакета для нашего приложения, если мы передаем фактические данные. Передаваемые нами записи — это просто указатели на файлы в S3, но нам нужно обрабатывать эти файлы большими пакетами.