Exemplo de aumento do trabalho por thread no CUDA

Algoritmo :

Estou escrevendo um programa com CUDA e o problema é o seguinte:

Duas matrizes A (n * 128) e B (m * 128)

Pego a primeira linha de A e calculo a distância entre esse vetor e todas as linhas de B, uma por uma.

Eu escrevo o resultado de cada distância em uma linha de uma matriz C, para que o elemento C (i, j) de C contenha a distância entre a linha i de A e a linha j de B.

e prossigo com a próxima linha de A.

Eu a implementei desta maneira: eu tenho uma grade feita por (n * m) blocos e 128 threads por bloco. (1 * 128).

PERGUNTA, QUESTÃO: O programa é executado com êxito com os resultados esperados, mas a execução do tempo é apenas 5 a 10 vezes mais rápida que a versão da CPU de um thread. Então eu gostaria de sabercomo aumentar o trabalho por thread antes da redução para aumentar o desempenho.

Código do kernel (original: não otimizado)

 __global__ void EuclideanDistances( float *A, float *B , float *C , int n , int m)
    // SIZE is equal to 128
__shared__ float accumResult[SIZE];
float sA;
float sB;

    // MAPPING
int bx = blockIdx.x;  // n
int by = blockIdx.y;  // m
int ty = threadIdx.y; // 128
int tx = threadIdx.x; // 1

sA = A [bx * SIZE + ty];
sB = B [by * SIZE + ty];

accumResult[ty] = (sA - sB) * (sA - sB);

// Parallel tree-reduction
for (int stride = SIZE/2 ; stride > 0 ; stride >>= 1)
    if (ty < stride)
        accumResult[ty] += accumResult [stride + ty];

    // Writing results to output matrix
if ((threadIdx.y == 0))
    C [bx * m + by] = accumResult[ty];


Agora, estou usando outro mapeamento: em vez de pegar uma grade den porm blocos e um bloco de128 threads, estou aumentando o número de threads dentro de um bloco para diminuir o número de blocos.

Novo mapeamento:

Bloco de128 por8 segmentos (total de 1024 segmentos, que é o tamanho máximo)

Grade den/8 porm/8 blocos

Infelizmente, está dando resultados errados).

Código do kernel otimizado (a ser atualizado)

__global__ void EuclideanDistances( float *A, float *B , float *C, int n , int m)
    __shared__ float accumResult[SIZE][8];
__shared__ float sA[SIZE][8];
__shared__ float sB[SIZE][8];

int bx = blockIdx.x;  // n / 8
int by = blockIdx.y;  // m / 8
int tx = threadIdx.x; // 8
int ty = threadIdx.y; // 128
int i = bx * tx * SIZE + ty;
int j = by * tx * SIZE + ty;

sA[ty][tx] = A [i];
sB[ty][tx] = B[j];

accumResult[ty][tx] = (sA[ty][tx] - sB[ty][tx]) * (sA[ty][tx] - sB[ty][tx]);

// Reduction
for (int stride = SIZE/2 ; stride > 0 ; stride>>=1)
    if (ty < stride)
        accumResult[ty][tx] += accumResult [stride + ty][tx];

    C[bx *  m + by] = accumResult[0][tx];

CÓDIGO HOST (alocações + chamadas do kernel)

    int main()
     int m = 20000; //MatrixA size : m * SIZE
     int n = 4000;  //MatrixB size : n * SIZE


     // Host Allocations
     float *matrixA = (float *) malloc (n * SIZE * sizeof(float));
     for(int i=0; i < n * SIZE; i++)
         matrixA[i] = (float) (rand()%100)+1;

     float *matrixB = (float *) malloc (m * SIZE * sizeof(float));
     for(int i=0; i < m * SIZE; i++)
         matrixB[i] = (float) (rand()%100)+1;

     float *results_kernel1 = (float *) malloc (n * m * sizeof(float));
     float *results_kernel2 = (float *) malloc (n * m * sizeof(float));

     //Device Allocation
     float *d_matrixA;
     float *d_matrixB;
     cudaMalloc((void **)&d_matrixA, n * SIZE * sizeof(float));
     cudaMalloc((void **)&d_matrixB, m * SIZE * sizeof(float));
     cudaMemcpy(d_matrixA , matrixA , n * SIZE * sizeof(float) , cudaMemcpyHostToDevice);
     cudaMemcpy(d_matrixB , matrixB , m * SIZE * sizeof(float) , cudaMemcpyHostToDevice);

     float *d_results_kernel1;
     float *d_results_kernel2;
     cudaMalloc((void **)&d_results_kernel1 , n * m * sizeof(float));
     cudaMalloc((void **)&d_results_kernel2 , n * m * sizeof(float));

     dim3 threads1 (1 , 128);
     dim3 blocks1  (n , m);
     EuclideanDistances1 <<<blocks1 , threads1>>> (d_matrixA , d_matrixB , d_results_kernel1 , n , m);
     cudaMemcpy(results_kernel1 , d_results_kernel1 , n * m *sizeof(float) , cudaMemcpyDeviceToHost);

     dim3 threads2 (8 , 128);   // 1024 threads per block (maximum)
     dim3 blocks2  (ceil((float)n/8) , ceil((float)m/8));
     EuclideanDistances2 <<<blocks2 , threads2>>> (d_matrixA , d_matrixB , d_results_kernel2 , n , m);
     cudaMemcpy(results_kernel2 , d_results_kernel2 , n * m *sizeof(float) , cudaMemcpyDeviceToHost);

     // Visualising and comparing results
     for (int i = 0 ; i < 50 ; i++)
         std::cout << "kernel1 : " << results_kernel1[i] << "  |  kernel2 : " << results_kernel2[i] << std::endl;


     return 0;

PS: Tenho o CUDA 6.0 com uma NVIDIA GTX 650 (capacidade de computação 3.0)

