#sql #amazon-web-services #etl #aws-glue
#sql #amazon-web-сервисы #etl #aws-glue
Вопрос:
Мне нужно преобразовать довольно большую таблицу базы данных с помощью aws Glue в csv. Однако я использую только самые новые строки таблицы за последние 24 часа. Существует столбец, в котором указывается дата создания строки. Возможно ли просто преобразовать эти строки, не копируя всю таблицу в файл csv? Я использую скрипт Python с Spark.
Заранее большое вам спасибо!
Ответ №1:
В AWS Glue есть несколько встроенных преобразований, которые используются для обработки ваших данных. Эти передачи могут быть вызваны из скриптов ETL.
Пожалуйста, обратитесь к ссылке ниже для того же: https://docs.aws.amazon.com/glue/latest/dg/built-in-transforms.html
Ответ №2:
Вы не указали тип database
, к которому пытаетесь подключиться. В любом случае для JDBC
соединений в spark есть опция запроса, в которой вы можете выполнить обычный SQL query
запрос, чтобы получить нужные вам строки.