#docker #parallel-processing #cpu #tensorflow-serving
Вопрос:
Я протестировал свою модель BERT(классификация) в докере Tensorflow, обслуживающем
Ниже приведена моя тестовая среда
- У меня есть 40-ядерный сервер(псевдоним A, для запроса), 16-ядерный сервер(псевдоним B, для ответа)
- Я отправляю 1~4 запроса одновременно от A до B
--tensorflow_inter_op_parallelism=6
фиксируется в точке B--tensorflow_intra_op_parallelism
проверяется от1
до6
в
Я получил результат :
Во-первых(синяя и зеленая зоны в верхней части результата) Я обнаружил , что чем больше inter
, тем меньше задержка.
Это разумно, я понимаю
Но когда я смотрю на синюю и желтую зону, чем больше запросов, тем дольше задержка.
Я не могу этого понять.
Хорошо… из-за планирования ресурсов?
Я хочу знать, почему это происходит.