Resultados da pesquisa a pedido "gpu"
Como usar o acesso à memória coalescida
Tenho 'N' threads para executar simultaneamente no dispositivo, dos quais eles precisam que o M * N flutue da memória global. Qual é a maneira correta de acessar a memória global coalescida? Nesse caso, como a memória compartilhada pode ajudar?
passing thrust :: device_vector para uma função por referência
Estou tentando passardevice_vector de estruturas struct point { unsigned int x; unsigned int y; } para uma função da seguinte maneira: void print(thrust::device_vector<point> &points, unsigned int index) { std::cout << points[index].y << ...
Errouda: a função já foi definida em outro arquivo .cu.obj
Estou tentando compilar um projeto cuda que alguém me enviou. Embora o estágio de compilação passe, o estágio do link está falhando. Abaixo está um exemplo do erro: Error 298 error LNK2005: "int __cdecl compare_ints(void const *,void const ...
ustos de alteração de textura (e outras alterações de estado) em GPUs modernas
Estou escrevendo um mecanismo gráfico baseado em gráfico de cena para fins de modelagem. Estou usando o XNA 4. Em muitos lugares que tenho lido, as alterações de textura (e outras alterações de estado) devem ser minimizadas durante ...
Como converter GpuMat para CvMat no OpenC
Eu sei fazer o oposto, ou seja, obterGpuMat a partir deCvMat usando o upload, mas eu preciso de umCvMat a partir deGpuMat, existe algum método que possa ser usado para isso?
Cache L2 na NVIDIA Fermi
Ao olhar o nome dos contadores de desempenho na arquitetura NVIDIA Fermi (o arquivo Compute_profiler.txt na pasta doc do cuda), notei que, para erros de cache L2, existem dois contadores de desempenho, l2_subp0_read_sector_misses ...
Openpen - Como consultar a largura SIMD de um dispositivo?
Na CUDA, existe o conceito deurdidur, definido como o número máximo de threads que podem executar a mesma instrução simultaneamente em um único elemento de processamento. Para a NVIDIA, esse tamanho de urdidura é 32 para todas as ...
Por que CUDA Profiler indica instruções de reprodução: 82%! = Reprodução global + reprodução local + reprodução compartilhada?
Recebi informações do CUDA Profiler. Estou tão confuso por que razão Replays Instruction! = Reprodução de memória global + Reprodução de memória local + Reprodução de conflito bancário compartilhado? Veja as seguintes informações que obtive do ...
OpenGL e múltiplas GPUs - possibilidade geral
Eu estava pensando, é possível executar um aplicativo OpenGL com várias janelas em mais de uma GPU simultaneamente? Para ser mais específico, digamos que eu criei um aplicativo com duas janelas cada compartilhando seu contexto GL entre si. Agora, ...
Quando a memória __shared__ da CUDA é útil?
Alguém pode me ajudar com um exemplo muito simples de como usar a memória compartilhada? O exemplo incluído no guia de programação Cuda C parece confuso com detalhes irrelevantes. Por exemplo, se eu copiar uma grande matriz para a memória ...