#c #parallel-processing #mpi #openmp
#c #параллельная обработка #mpi #openmp
Вопрос:
Во-первых, я использовал этот код в качестве ссылки, который показывает использование MPI_Gather
without MPI_Scatter
, поскольку это то, чего я пытаюсь достичь здесь. Я работаю над этим уже давно и просто не могу разобраться в проблеме. Этот алгоритм обнаружения границ sobel усиливает контуры объектов внутри изображений.
Я опубликую свой код ниже, так как его не так много, но сначала я дам краткое описание кода.
Я пытаюсь преобразовать последовательную программу в параллельную программу. Таким образом, весь код, отличный от MPI, правильный.
Так что где-то может быть ошибка только с моим MPI
кодом.
int main(int argc, char **argv) {
FILE *inFile, *oFile;
int grayImage[N][N], edgeImage[N][N];
char type[2];
int w, h, max;
int r, g, b, y, x, i, j, sum, sumx, sumy;
int tid;
int GX[3][3], GY[3][3];
double elapsed_time;
struct timeval tv1, tv2;
int error = 0;
char buffer[BUFSIZ];
int rank, NP;
// Code lies here for reading from the image file and storing into the grayImage array.
// This works so I saw no reason to include it
/* 3x3 Sobel masks. */
GX[0][0] = -1; GX[0][1] = 0; GX[0][2] = 1;
GX[1][0] = -2; GX[1][1] = 0; GX[1][2] = 2;
GX[2][0] = -1; GX[2][1] = 0; GX[2][2] = 1;
GY[0][0] = 1; GY[0][1] = 2; GY[0][2] = 1;
GY[1][0] = 0; GY[1][1] = 0; GY[1][2] = 0;
GY[2][0] = -1; GY[2][1] = -2; GY[2][2] = -1;
MPI_Init(NULL, NULL);
MPI_Comm_size(MPI_COMM_WORLD, amp;NP);
MPI_Comm_rank(MPI_COMM_WORLD, amp;rank);
// This calculates the block size.MPI
// On 4 processors the block size for a 100x100 image would be 25x100 each
int blksz = (int)ceil((double)N/NP);
// This creates a local array for each processor, soon to be gathered
int tempEdge[blksz][N];
// this line shows it's working correctly
printf("processor %d, width: %d, height: %d, blksz: %d, begin: %d, end: %dn", rank, w, h, blksz, rank*blksz, (rank 1)*blksz);
for(x=rank*blksz; x < (rank 1)*blksz amp;amp; x<h; x ){
// Any code in this loop can be ignored as it works correctly.
for(y=0; y < w; y){
sumx = 0;
sumy = 0;
// handle image boundaries
if(x==0 || x==(h-1) || y==0 || y==(w-1))
sum = 0;
else{
//x gradient approx
for(i=-1; i<=1; i ) {
for(j=-1; j<=1; j ){
sumx = (grayImage[x i][y j] * GX[i 1][j 1]);
}
}
//y gradient approx
for(i=-1; i<=1; i ) {
for(j=-1; j<=1; j ){
sumy = (grayImage[x i][y j] * GY[i 1][j 1]);
}
}
//gradient magnitude approx
sum = (abs(sumx) abs(sumy));
}
tempEdge[x][y] = clamp(sum);
}
}
// Here is the line I am guessing is causing the problem
MPI_Gather(amp;tempEdge, w*blksz, MPI_INT,
amp;edgeImage, w*blksz, MPI_INT, 0,
MPI_COMM_WORLD);
// Finally, I output edgeImage to a file here.
if(rank==0){
// output edgeImage to File
}
MPI_Finalize();
return 0;
}
Входное изображение, которое я использую, это:
Но вывод дает только это:
Как вы можете видеть, это только верхняя четверть (N / 4) или blksz
изображения.
Это будет означать, что MPI_Gather
собирается только из процесса с рангом 0?
Я потратил на это так много времени, что любая помощь была бы очень признательна!
Ответ №1:
Не обвиняйте коллективы MPI в ошибках в остальной части вашего кода. На самом деле это чудо, что ваш код создает поврежденные изображения без сегментации. Просто взгляните на эту часть:
int tempEdge[blksz][N];
~~~~~
for(x = rank*blksz; x < (rank 1)*blksz amp;amp; x<h; x ){
~~~~~~~~~~
for(y = 0; y < w; y){
...
tempEdge[x][y] = clamp(sum); (1)
~
}
}
Для любого ранга > 0 код записывает данные после конца массива. Исправьте инструкцию в (1), чтобы читать:
tempEdge[x - rank*blksz][y] = clamp(sum);
Кроме того, удалите amp;
s в MPI_Gather
вызове:
MPI_Gather(tempEdge, w*blksz, MPI_INT,
edgeImage, w*blksz, MPI_INT, 0,
MPI_COMM_WORLD);
Он также будет работать с amp;
, но это технически неверно. Если вы настаиваете на использовании оператора address-of, то вместо этого используйте amp;tempEdge[0][0]
and amp;edgeImage[0][0]
.
Комментарии:
1. Я действительно не могу поверить, что пропустил это! Теперь я чувствую себя глупо, публикуя это на SO. Большое вам спасибо за просмотр всего этого кода!
2. Я знаю, что отладка кода MPI сложна, поскольку количество используемых параллельных отладчиков можно пересчитать по пальцам одной руки, и большинство из них коммерческие.