Почему при сокращении используется регистровая память медленнее, чем общая память?
#cuda Вопрос: Я оценил две производительности ядра: #include <chrono> #include <cuda_runtime.h> #include <stdio.h> void initData_int(int *p, int size){ for (int t=0; t<size; t ){ p[t] = (int)(rand()amp;0xff); } } __global__…