#amazon-web-services #amazon-ec2 #amazon-emr #amazon-vpc
#amazon-веб-сервисы #amazon-ec2 #amazon-emr #amazon-vpc
Вопрос:
У нас высокая стоимость, поскольку «EC2: NAT Gateway — обработка данных», поскольку объем передаваемых ежедневно данных составляет около 15 ТБ, я могу понять плату NAT gateway за ввод или вывод данных. Я попытался использовать Google, и большинство из них отвечали, как использовать конечную точку VPC. Но конечная точка VPC полезна, если у нас есть внутренние службы aws. наш сценарий выглядит так: «Много данных поступает со стороннего SFTP-сервера (по-видимому, ТАКЖЕ в AWS), 7 дней в неделю, пока все не будет передано». Пожалуйста, предложите способ снижения затрат. Мы используем кластер EMR для получения данных, блоки emr ec2 находятся в частных подсетях.
Комментарии:
1. Вы хотите сказать, что вы извлекаете много данных с внешнего SFTP-сервера, да? Все ли это настолько сжато, насколько это возможно? Вы случайно повторно извлекаете одни и те же данные (которые можно оптимизировать с помощью кэширования, возможно, в S3)? Есть ли у вас какие-либо варианты получения этих данных из S3 вместо этого (что было бы нулевой сетевой стоимостью, если в том же регионе)? Также обратите внимание, что существует передача AWS для службы SFTP, которая может иметь отношение к делу.
2. Да, внешний SFTP-сервер, да, сжатые, не те же данные, его сторонние, поэтому нам нужно получить оттуда местоположение SFTP
3. Я бы посоветовал вам найти способ отправить эти данные в S3. Возможно, поставщик данных может зеркально отобразить их в S3, или вы можете запустить процесс за пределами AWS, который извлекает данные из SFTP, а затем отправляет их в S3. Передача данных в S3 бесплатна. Данные, передаваемые из S3 в экземпляр EC2 (например, в EMR), бесплатны, если экземпляр находится в том же регионе AWS, что и корзина S3.
4. @jarmod Я поговорил с разработчиком о том, как обработать его, как будто у него есть URL-адрес sftp> Я перешел по нему, и он показал, что ec2-общедоступный ip, поэтому я думаю, что он находится в окне EC2> Разработчик копирует данные в поле EMR ec2, обрабатывает их> копирует в нашу корзину S3, он не может напрямую копировать изSTP для s3, поскольку ему нужно выполнить некоторый анализ данных в окне ec2.
5. Я предлагаю вам зеркально отображать файлы с SFTP-сервера на S3 (делайте это за пределами AWS), затем загружать эти зеркальные файлы с S3 на EMR / EC2 в том же регионе, выполнять обработку, а затем отправлять результаты обратно на S3.
Ответ №1:
Перешел на EC2 box без Nat-шлюза, да, существует угроза безопасности, поскольку он будет открыт в Интернете, или вам следует попробовать прямое копирование на S3, как предложил Jarmod. Плата за обработку больших файлов для Nat-шлюза очень высока. AWS взимает разумную плату, согласно документации, если EC2 и S3 в одном регионе, не должно быть никаких затрат на выход S3, но для этого нужны конечные точки S3, в противном случае поле EC2 будет рассматриваться как общедоступный IP или шлюз Nat (если оно у вас есть). Создана конечная точка S3, что снизило внутренние затраты на обработку.