Копирование данных из PostgreSQL в S3 с помощью AWS Data Pipeline

#amazon-web-services #amazon-rds #aws-data-pipeline

#amazon-веб-сервисы #amazon-rds #aws-data-pipeline

Вопрос:

Я пытаюсь скопировать все таблицы из схемы (PostgreSQL, более 50 таблиц) в Amazon S3.

Каков наилучший способ сделать это? Я могу создать 50 различных операций копирования, но есть ли простой способ скопировать все таблицы в схеме или написать один конвейер и цикл?

Ответ №1:

Я думаю, что старый метод :

  1. Unload your data from PostgreSQL to a CSV file first using something like psql  
 2. Then just copy the csv to S3

Но AWS предоставляет вам скрипт для этого, RDSToS3CopyActivity смотрите эту ссылку от AWS

Ответ №2:

Поскольку у вас большое количество таблиц. Я бы рекомендовал использовать AWS Glue по сравнению с AWS Data Pipeline. Glue легко настраивается с помощью сканеров и т.д., Что позволяет гибко выбирать столбцы, определять и т.д. Более того, базовые задания в AWS Glue — это задания pyspark, которые действительно хорошо масштабируются, обеспечивая действительно хорошую производительность.

Вопрос:

Ответ №1:

Ответ №2:

Вам также может понравиться

Почему происходит сбой PySpark при использовании Apache Arrow для строковых типов?

Собирают ли браузеры без головы те же локальные переменные и переменные хранилища сеансов, что и браузеры без головы?

Добавьте собственный IP-адрес EC2 в качестве входящего правила с помощью terraform