#amazon-web-services #amazon-sagemaker #huggingface-transformers
#amazon-веб-сервисы #amazon-sagemaker #обнимашки-трансформеры
Вопрос:
Я пытаюсь понять, откуда берется дополнительное время в моем вызове Sagemaker. Я получаю среднее время отклика в оба конца ~350 мс.
Я использую Huggingface Sagemaker и использовал пользовательский inference.py файл для настройки сценария вывода. В сценарии я позаботился о том, чтобы измерить время, необходимое для выполнения вывода, и в среднем оно составляет ~75 мс.
Я не верю, что для ответа потребуется ~275 мс, чтобы сделать его туда и обратно, поэтому я не понимаю, что может занять так много времени. Есть ли какие-либо советы, которые помогут мне направить поиск, чтобы сделать запрос как можно быстрее?
Комментарии:
1. Откуда вы звоните модели? в облаке или с локальной рабочей станции? Вы видели в CloudWatch, что такое задержка модели по сравнению с задержкой накладных расходов?
2. @OlivierCruchant Я протестировал вызов модели локально, а также из развернутого приложения AWS Elastic Beanstalk.В обоих случаях я получаю это время ответа. В худшем случае задержка модели составляла ~106 мс, а максимальная задержка составляла ~35 мс. Все в порядке, я понимаю, что возьму немного этого. Интересно, куда делись остальные ~140 мс. Я понимаю, что нам нужно дать некоторое время для сетевого общения, но я не верю, что это так высоко.