Resultados de la búsqueda a petición "gpu"
CUDA cudaMalloc
Empecé a escribir una nueva aplicación CUDA. Sin embargo, me topé con un desvío divertido en el camino. Llamar al primer cudaMalloc en una variable x, falla la primera vez. Sin embargo, cuando lo llamo por segunda vez, devuelve ...
Cómo usar el acceso de memoria fusionada
Tengo subprocesos 'N' para realizar simultáneamente en el dispositivo que necesitan M * N flotante de la memoria global. ¿Cuál es la forma correcta de acceder a la memoria global fusionada? En este asunto, ¿cómo puede ayudar la memoria compartida?
passing thrust :: device_vector a una función por referencia
Estoy tratando de pasardevice_vector de estructuras struct point { unsigned int x; unsigned int y; } a una función de la siguiente manera: void print(thrust::device_vector<point> &points, unsigned int index) { std::cout << points[index].y << ...
rror @Cuda: la función ya se ha definido en otro archivo .cu.obj
Estoy tratando de compilar un proyecto cuda que alguien me envió. Aunque la etapa de compilación pasa, la etapa de enlace falla. A continuación se muestra un ejemplo del error: Error 298 error LNK2005: "int __cdecl compare_ints(void const ...
Costos de cambio de textura (y otros cambios de estado) en GPU modernas
Estoy escribiendo un motor gráfico basado en gráficos de escenas para fines de modelado. Estoy usando XNA 4. En muchos lugares que he estado leyendo, los cambios de textura (y otros cambios de estado) deben minimizarse durante el renderizado ...
¿Cómo convertir GpuMat a CvMat en OpenCV?
Sé cómo hacer lo contrario, es decir, obtenerGpuMat desdeCvMat usando upload, pero necesito unCvMat desdeGpuMat, ¿hay algún método que pueda usarse para esto?
Caché L2 en NVIDIA Fermi
Al mirar el nombre de los contadores de rendimiento en la arquitectura NVIDIA Fermi (el archivo Compute_profiler.txt en la carpeta doc de cuda), noté que para errores de caché L2, hay dos contadores de rendimiento, l2_subp0_read_sector_misses y ...
OpenCL: ¿cómo puedo consultar el ancho SIMD de un dispositivo?
En CUDA, hay un concepto dedeformació, que se define como el número máximo de subprocesos que pueden ejecutar la misma instrucción simultáneamente dentro de un único elemento de procesamiento. Para NVIDIA, este tamaño de urdimbre es 32 para todas ...
¿Por qué CUDA Profiler indica instrucciones reproducidas: 82%! = Reproducción global + reproducción local + reproducción compartida?
Recibí información de CUDA Profiler. Estoy tan confundido por qué Replays Instruction! = Reproducción de memoria Grobal + reproducción de memoria local + reproducción de conflicto de banco compartido? Vea la siguiente información que obtuve ...
OpenGL y múltiples GPU: posibilidad general
Me preguntaba, ¿es posible ejecutar una aplicación OpenGL de múltiples ventanas en más de una GPU simultáneamente? Para ser más específicos, digamos que he creado una aplicación con dos ventanas, cada una de las cuales comparte su contexto GL ...