Команда копирования Amazon Redshift медленно

#amazon-web-services #amazon-redshift

#amazon-веб-сервисы #амазонка-красное смещение

Вопрос:

Мне нужно скопировать ~ 3000 .csv.gz файлы в таблицу Amazon Redshift из корзины Amazon S3. Количество столбцов таблицы составляет около 150, а размер одного файла находится в диапазоне 1-10 мегабайт.

 COPY table
FROM 's3://bucket/folder/'
CREDENTIALS 'aws_access_key_id=;aws_secret_access_key='
IGNOREHEADER 1
GZIP
DELIMITER ',';

Проблема в том, что эта операция выполняется очень медленно, занимает слишком много времени для завершения. Есть ли какой-нибудь способ настроить производительность?

1. Сколько узлов и какого типа узлы находятся в вашем кластере? Вы могли бы временно увеличить количество узлов, а затем уменьшить его. (Это вызывает небольшую перетасовку в серверной части, но ускоряет загрузку, поскольку загрузка выполняется параллельно на нескольких узлах.) Кроме того, что за SORTKEY стоит на столе? Чередующаяся сортировка может занять много времени.

2. Какую производительность вы видите сейчас, на каких узлах?

3. @JohnRotenstein у меня есть только один экземпляр ds2.xlarge. Я предполагаю, что проблема в КЛЮЧЕ СОРТИРОВКИ (две временные метки, один уникальный хэшированный идентификатор)

4. Нет, «проблема», вероятно, в том, что у вас обрабатывается много файлов на одном узле. Он не может сильно распараллелить рабочую нагрузку только с одним узлом. Сколько времени это займет, и как долго вы хотели бы , чтобы это заняло? Сколько всего строк? Смотрите также: Рекомендации Amazon Redshift по загрузке данных — Amazon Redshift

Вопрос:

Комментарии:

Вам также может понравиться

Как я могу загрузить каталог, полный артефактов, в пакеты GitHub?

Двумерная гистограмма Python с дискретной цветовой картой

FastAPI для обработки нескольких подключений к БД через SQLAlchemy