Как оптимизировать чтение огромных данных в AWS Glue с помощью pyspark

#amazon-web-services #amazon-s3 #optimization #aws-glue

Вопрос:

Я читаю файл parquet, который присутствует в S3 с помощью фрейма данных pyspark (клея), и записываю его в таблицу postgres.Данные огромны . В день запись составляет около 90000. 6000 записей занимают около 2 часов . Таким образом, по оценкам, 90000 записей будут работать в течение 30 часов или более . Я хочу, чтобы моя работа была выполнена в течение 24 часов. Я не могу выполнять свою работу параллельно, так как удаляю предыдущие существующие записи каждый раз, когда загружаю данные в таблицу

Конфигурация клея: Максимальная вместимость 10
Тип работника: G. 1X
Количество работников: 10
Время ожидания задания (минут): 2880

Вопрос:

Комментарии:

Вам также может понравиться

Как программно настроить ssh-туннель на iPhone для доступа к удаленной службе?

пытаюсь вычислить проценты подсчетов в SQL — HUE IMPALA

Scala. Есть ли способ выбрать реализацию супер метода с самотипами?