#amazon-web-services #amazon-s3
#amazon-web-services #amazon-s3
Вопрос:
У меня есть корзина S3, полная метрик открытого текста, и мне нужен способ анализа и просмотра этих данных. Один из вариантов, который я рассматриваю, — Amazon Athena, но я хотел бы рассмотреть плюсы и минусы нескольких подходов.
Комментарии:
1. Каков формат файлов? CSV? Сжатый? Каждый файл независим или похожие типы сгруппированы по папкам? Сколько там файлов и насколько они велики? Пожалуйста, отредактируйте свой вопрос, чтобы добавить больше деталей, а не отвечать в комментарии.
Ответ №1:
Amazon Athena действительно хорош для анализа adhoc. Если ваш файл находится в формате, поддерживаемом Athena, и если вы хотите выполнить всего несколько анализов adhoc. Вы можете быстро начать работу с Athena.
Если вы хотите ускорить свой анализ adhoc, создайте внешнюю таблицу поверх существующих файлов, рассмотрите возможность запуска запроса Athena CTAS для преобразования ваших данных в Avro / Parquet и разделения / корзины ваших данных по мере необходимости.
Если стоимость не является проблемой, вы также можете обратиться к Redshift. Посмотрите, возможно ли выполнить команду копирования redshift для ваших файлов, чтобы импортировать все эти файлы в базу данных Redshift. Используйте соответствующие ключи сортировки и ключи распространения, чтобы повысить производительность запросов в Redshift.