Как оптимизировать чтение огромных данных в AWS Glue с помощью pyspark

#amazon-web-services #amazon-s3 #optimization #aws-glue

Вопрос:

Я читаю файл parquet, который присутствует в S3 с помощью фрейма данных pyspark (клея), и записываю его в таблицу postgres.Данные огромны . В день запись составляет около 90000. 6000 записей занимают около 2 часов . Таким образом, по оценкам, 90000 записей будут работать в течение 30 часов или более . Я хочу, чтобы моя работа была выполнена в течение 24 часов. Я не могу выполнять свою работу параллельно, так как удаляю предыдущие существующие записи каждый раз, когда загружаю данные в таблицу

  • Конфигурация клея: Максимальная вместимость 10
  • Тип работника: G. 1X
  • Количество работников: 10
  • Время ожидания задания (минут): 2880

Комментарии:

1. проверить aws.amazon.com/blogs/big-data/…