#amazon-web-services #amazon-s3 #optimization #aws-glue
Вопрос:
Я читаю файл parquet, который присутствует в S3 с помощью фрейма данных pyspark (клея), и записываю его в таблицу postgres.Данные огромны . В день запись составляет около 90000. 6000 записей занимают около 2 часов . Таким образом, по оценкам, 90000 записей будут работать в течение 30 часов или более . Я хочу, чтобы моя работа была выполнена в течение 24 часов. Я не могу выполнять свою работу параллельно, так как удаляю предыдущие существующие записи каждый раз, когда загружаю данные в таблицу
- Конфигурация клея: Максимальная вместимость 10
- Тип работника: G. 1X
- Количество работников: 10
- Время ожидания задания (минут): 2880
Комментарии:
1. проверить aws.amazon.com/blogs/big-data/…