aws Glue: можно ли извлекать только определенные данные из базы данных?

#sql #amazon-web-services #etl #aws-glue

#sql #amazon-web-сервисы #etl #aws-glue

Вопрос:

Мне нужно преобразовать довольно большую таблицу базы данных с помощью aws Glue в csv. Однако я использую только самые новые строки таблицы за последние 24 часа. Существует столбец, в котором указывается дата создания строки. Возможно ли просто преобразовать эти строки, не копируя всю таблицу в файл csv? Я использую скрипт Python с Spark.

Заранее большое вам спасибо!

Ответ №1:

В AWS Glue есть несколько встроенных преобразований, которые используются для обработки ваших данных. Эти передачи могут быть вызваны из скриптов ETL.

Пожалуйста, обратитесь к ссылке ниже для того же: https://docs.aws.amazon.com/glue/latest/dg/built-in-transforms.html

Ответ №2:

Вы не указали тип database , к которому пытаетесь подключиться. В любом случае для JDBC соединений в spark есть опция запроса, в которой вы можете выполнить обычный SQL query запрос, чтобы получить нужные вам строки.