#amazon-web-services #amazon-rds #aws-data-pipeline
#amazon-веб-сервисы #amazon-rds #aws-data-pipeline
Вопрос:
Я пытаюсь скопировать все таблицы из схемы (PostgreSQL, более 50 таблиц) в Amazon S3.
Каков наилучший способ сделать это? Я могу создать 50 различных операций копирования, но есть ли простой способ скопировать все таблицы в схеме или написать один конвейер и цикл?
Ответ №1:
Я думаю, что старый метод :
1. Unload your data from PostgreSQL to a CSV file first using something like psql
2. Then just copy the csv to S3
Но AWS предоставляет вам скрипт для этого, RDSToS3CopyActivity
смотрите эту ссылку от AWS
Ответ №2:
Поскольку у вас большое количество таблиц. Я бы рекомендовал использовать AWS Glue по сравнению с AWS Data Pipeline. Glue легко настраивается с помощью сканеров и т.д., Что позволяет гибко выбирать столбцы, определять и т.д. Более того, базовые задания в AWS Glue — это задания pyspark, которые действительно хорошо масштабируются, обеспечивая действительно хорошую производительность.