#c #memory-management #matrix-multiplication #bit-packing
#c #управление памятью #матрица-умножение #упаковка битов
Вопрос:
В настоящее время я пытаюсь написать алгоритм для оптимизации умножения матриц над GF (2) с использованием упаковки битов. Обе матрицы A
и B
представлены в основном порядке столбцов, поэтому я начинаю с копирования A
в основной порядок строк, а затем упаковываю значения в 8-разрядные целые числа и использую проверку на четность для ускорения операций. Мне нужно иметь возможность тестировать квадратные матрицы размером до 2048×2048, однако моя текущая реализация выдает правильный ответ размером до 24×24, а затем не может вычислить правильный результат. Любая помощь была бы оценена.
//Method which packs an array of integers into 8 bits
uint8_t pack(int *toPack) {
int i;
uint8_t A;
A = 0;
for (i = 0; i < 8; i ) {
A = (A << 1) | (uint8_t)toPack[i];
}
return A;
}
//Method for doing matrix multiplication over GF(2)
void matmul_optimized(int n, int *A, int *B, int *C) {
int i, j, k;
//Copying values of A into a row major order matrix.
int *A_COPY = malloc(n * n * sizeof(int));
int copy_index = 0;
for (i = 0; i < n; i ) {
for (j = 0; j < n; j ) {
A_COPY[copy_index] = A[i j * n];
copy_index ;
}
}
//Size of the data data type integers will be packed into
const int portion_size = 8;
int portions = n / portion_size;
//Pointer space reserved to store packed integers in row major order
uint8_t *compressedA = malloc(n * portions * sizeof(uint8_t));
uint8_t *compressedB = malloc(n * portions * sizeof(uint8_t));
int a[portion_size];
int b[portion_size];
for (i = 0; i < n; i ) {
for (j = 0; j < portions; j ) {
for (k = 0; k < portion_size; k ) {
a[k] = A_COPY[i * n j * portion_size k];
b[k] = B[i * n j * portion_size k];
}
compressedA[i * n j] = pack(a);
compressedB[i * n j] = pack(b);
}
}
//Calculating final matrix using parity checking and XOR on A and B
int cij;
for (i = 0; i < n; i) {
for (j = 0; j < n; j) {
int cIndex = i j * n;
cij = C[cIndex];
for (k = 0; k < portions; k) {
uint8_t temp = compressedA[k i * n] amp; compressedB[k j * n];
temp ^= temp >> 4;
temp ^= temp >> 2;
temp ^= temp >> 1;
uint8_t parity = temp amp; (uint8_t)1;
cij = cij ^ parity;
}
C[cIndex] = cij;
}
}
free(compressedA);
free(compressedB);
free(A_COPY);
}
Ответ №1:
У меня есть два замечания:
-
вероятно, вам следует инициализировать
cij
на0
вместоcij = C[cIndex];
. Кажется неправильным обновлять целевую матрицу вместо сохранения результатаA * B
. Ваш код может работать для небольших матриц по совпадению, потому что целевая матрицаC
состоит из нулей для этого размера. -
рискованно вычислять размер выделения как,
malloc(n * n * sizeof(int));
потому чтоn * n
может произойти переполнение наint n
ifint
меньше, чемsize_t
. Учитывая размеры, с которыми вы работаете, здесь, вероятно, это не проблема, но рекомендуется всегда использоватьsizeof
в качестве первого операнда для принудительного преобразования вsize_t
из следующих:int *A_COPY = malloc(sizeof(*A_COPY) * n * n);