Настройка потока передачи данных в AWS

#amazon-web-services #amazon-s3 #debezium #data-lake #data-pipeline

Вопрос:

Постановка проблемы: У нас есть RDS Postgres (управляемый AWS), и требуется создать озеро данных (в S3) для всех данных, которые находятся в RDS. Данные должны передаваться в s3 почти в режиме реального времени, решение также должно позаботиться о (операциях обновления, вставки, удаления). Существует ограничение, заключающееся в том, что мы не можем использовать сервис конвейера данных AWS из-за его недоступности в нужном регионе.

Ответ №1:

В блоге AWS описано решение, которое, по-видимому, соответствует вашим требованиям или может быть адаптировано к нему:

Комментарии:

1. Apache hudi и DMS вместе с клеевым пользовательским разъемом оказали большую помощь

Ответ №2:

Эта ссылка-отличная помощь, небольшие изменения здесь и там, и она помогла мне настроить конвейер. https://aws.amazon.com/blogs/big-data/creating-a-source-to-lakehouse-data-replication-pipe-using-apache-hudi-aws-glue-aws-dms-and-amazon-redshift/