Почему задержка запроса-ответа увеличивается при многопоточном запросе?

#docker #parallel-processing #cpu #tensorflow-serving

Вопрос:

Я протестировал свою модель BERT(классификация) в докере Tensorflow, обслуживающем

Ниже приведена моя тестовая среда

  1. У меня есть 40-ядерный сервер(псевдоним A, для запроса), 16-ядерный сервер(псевдоним B, для ответа)
  2. Я отправляю 1~4 запроса одновременно от A до B
  3. --tensorflow_inter_op_parallelism=6 фиксируется в точке B
  4. --tensorflow_intra_op_parallelism проверяется от 1 до 6 в

Я получил результат : изображение

Во-первых(синяя и зеленая зоны в верхней части результата) Я обнаружил , что чем больше inter , тем меньше задержка.
Это разумно, я понимаю

Но когда я смотрю на синюю и желтую зону, чем больше запросов, тем дольше задержка.
Я не могу этого понять.

Хорошо… из-за планирования ресурсов?

Я хочу знать, почему это происходит.