программа не работает для массива 30 х 30

Это программа для умножения матриц на архитектуре CUDA. Этот код работает нормально, когда размер массива 30 х 30, но выводит в виде серии 0 's, когда размер больше. Я использую стандартный экземпляр ec2 для CUDA на Linux-машине. Кто-нибудь может выяснить причину?

#include 
#define SIZE 30

__global__ void matrix_multiply(float *input1,float  *input2,float *output,int dimension){


    int input1_index = threadIdx.x / dimension * dimension;
    int input2_index =  threadIdx.x % dimension;
    int i=0;
    for( i =0; i 

Ответы на вопрос(2)

Ваш ответ на вопрос