программа не работает для массива 30 х 30
Это программа для умножения матриц на архитектуре CUDA. Этот код работает нормально, когда размер массива 30 х 30, но выводит в виде серии 0 's, когда размер больше. Я использую стандартный экземпляр ec2 для CUDA на Linux-машине. Кто-нибудь может выяснить причину?
#include
#define SIZE 30
__global__ void matrix_multiply(float *input1,float *input2,float *output,int dimension){
int input1_index = threadIdx.x / dimension * dimension;
int input2_index = threadIdx.x % dimension;
int i=0;
for( i =0; i