Resultados da pesquisa a pedido "cuda"
Erro ao usar CUDA e C ++ 11
Estou usando o CUDA 4.1 e o GCC 4.5 ... (FINALMENTE! O CUDA suporta o GCC 4.5, mas ainda estou aguardando o GCC 4.6). De qualquer forma, é possível usar o C ++ 11 com o CUDA 4.1? Eu tentei passar: --compiler-options "-std=c++0x" para nvcc e ...
perações em uma matriz 2D no kernel CUDA para matl
suppose Tenho o seguinte serial C: int add(int* a, int* b, int n) { for(i=0; i<n; i++) { for(j=0; j<n; j++) { a[i][j]+=b[i][j]; } } return 0; } Acho que a melhor maneira de paralelizar é perceber que é um problema 2D e usar blocos de ...
Cuda variável de matriz de memória compartilhada
Estou tentando declarar uma variável para multiplicação de matrizes da seguinte maneira: __shared__ float As[BLOCK_SIZE][BLOCK_SIZE]; Estou tentando fazer com que o usuário possa inserir o tamanho da matriz a ser calculada, no entanto, ...
Multiplicação dinâmica de matrizes com CUDA
A idéia do meu programa simples que eu tenho tentado escrever é obter informações do usuário para ver o tamanho de uma matriz para multiplica Eu estou procurando pegar a entrada x por x, no momento não estou olhando para multiplicar dois ...
O OpenCL da AMD oferece algo semelhante ao GPUDirect da CUDA?
NVIDIA oferece GPUDirect [http://developer.nvidia.com/gpudirect] para reduzir as despesas gerais de transferência de memória. Gostaria de saber se existe um conceito semelhante para AMD / ATI? Especificamente 1) As GPUs AMD evitam a segunda ...
xecução simultânea do kernel do CUDA com vários kernels por flu
O uso de diferentes fluxos para os kernels CUDA possibilita a execução simultânea do kernel. Portanton kernels onneoricamente, os fluxos @ poderiam executar simultaneamente se eles se encaixassem no hardware, cert Agora estou enfrentando o ...
Copiar uma estrutura contendo ponteiros para o dispositivo CUDA
Estou trabalhando em um projeto em que preciso do meu dispositivo CUDA para fazer cálculos em uma estrutura contendo ponteiro typedef struct StructA { int* arr; } StructA; Quando eu alocar memória para a estrutura e depois copiá-la para o ...
Cálculo do desempenho do CUFFT
Estou executando o CUFFT em chunks (N * N / p) divididos em várias GPUs, e tenho uma dúvida sobre o cálculo do desempenho. Primeiro, um pouco sobre como estou fazendo isso: Envie N * N / p pedaços para cada GPU FFT 1-D em lote para cada linha ...
Penalidade de desempenho ao invocar um kernel cuda
Estou imaginando qual é a sobrecarga de executar uma chamada de kernel cuda em C / C ++, como a seguir: somekernel1<<<blocks,threads>>>(args); somekernel2<<<blocks,threads>>>(args); somekernel3<<<blocks,threads>>>(args); A razão pela qual estou ...
Erro de argumento inválido ao copiar dados do dispositivo para o host
Estou tendo problemas ao copiar dados do meu dispositivo de volta para o host. Meus dados são organizados em uma estrutura: typedef struct Array2D { double* arr; int rows; int cols; } Array2D;arr é uma matriz 'plana'.rows ecols descreve as ...