Multiplicación matricial con bloques
Este es mi código para acelerar la multiplicación de matrices, pero es solo un 5% más rápido que el simple. ¿Qué puedo hacer para impulsarlo tanto como sea posible?
* Se accede a las tablas, por ejemplo, como:C [sub2ind (i, j, n)] Para elC [i, j] posición.
void matrixMultFast(float * const C, /* output matrix */
float const * const A, /* first matrix */
float const * const B, /* second matrix */
int const n, /* number of rows/cols */
int const ib, /* size of i block */
int const jb, /* size of j block */
int const kb) /* size of k block */
{
int i=0, j=0, jj=0, k=0, kk=0;
float sum;
for(i=0;i<n;i++)
for(j=0;j<n;j++)
C[sub2ind(i,j,n)]=0;
for(kk=0;kk<n;kk+=kb)
{
for(jj=0;jj<n;jj+=jb)
{
for(i=0;i<n;i++)
{
for(j=jj;j<jj+jb;j++)
{
sum=C[sub2ind(i,j,n)];
for(k=kk;k<kk+kb;k++)
sum += A[sub2ind(i,k,n)]*B[sub2ind(k,j,n)];
C[sub2ind(i,j,n)]=sum;
}
}
}
}
} // end function 'matrixMultFast4'
* Está escrito en C y necesita soportar C99