Как оптимизировать время cudaHostAlloc и cudaLaunchKernel в обучении pytorch
#deep-learning #pytorch #profiler Вопрос: Я пытаюсь профилировать свою модель с помощью профилировщика pytorch. Я использовал приведенный ниже код для профилирования with profile(activities=[ProfilerActivity.CPU, ProfilerActivity.CUDA], record_shapes=True) as prof: with record_function("model_inference"): output_batch =…