Resultados de la búsqueda a petición "cuda"
¿Cómo convertir ciclos de reloj CUDA a milisegundos?
Me gustaría medir el tiempo un poco de códigodentromi kernel toma He seguidoesta pregunta [https://stackoverflow.com/questions/11209228/timing-different-sections-in-cuda-kernel] junto con sus comentarios para que mi núcleo se vea más o menos ...
CUDA asigna memoria en la función __dispositivo__
¿Hay alguna manera en CUDA de asignar memoria en la función __device__? No pude encontrar ningún ejemplo de hacer esto. Del manual: B.15 Asignación dinámica de memoria global void * malloc (size_t size); vacío libre (vacío * ptr); asignar y ...
Buscar una matriz ordenada en un núcleo CUDA
Estoy escribiendo un kernel CUDA y cada hilo tiene que completar la siguiente tarea: supongamos que tengo una matriz ordenadaa den enteros sin signo (el primero siempre es 0) almacenados en la memoria compartida, cada subproceso debe encontrar el ...
printf dentro de la función __global__ de CUDA
Actualmente estoy escribiendo una multiplicación matricial en una GPU y me gustaría depurar mi código, pero como no puedo usar printf dentro de una función del dispositivo, ¿hay algo más que pueda hacer para ver qué sucede dentro de esa función? ...
Se creó un contexto CUDA en una GPU que actualmente no se puede depurar
Cuando comienzo la depuración de cuda, Nsight devuelve este error: Se creó un contexto CUDA en una GPU que actualmente no se puede depurar. Los puntos de interrupción serán deshabilitados. Adaptador: GeForce GT 720M Este es mi sistema y la ...
Cómo estructurar datos para una velocidad óptima en una aplicación CUDA
Estoy intentando escribir un sistema de partículas simple que aproveche CUDA para actualizar las posiciones de las partículas. En este momento estoy definiendo que una partícula tiene un objeto con una posición definida con tres valores de ...
¿Hacer CUB blockradixsort en chip por completo?
Estoy leyendo las documentaciones y ejemplos de CUB: #include <cub/cub.cuh> // or equivalently <cub/block/block_radix_sort.cuh> __global__ void ExampleKernel(...) { // Specialize BlockRadixSort for 128 threads owning 4 integer items each typedef ...
Calcular el espacio nulo de una matriz lo más rápido posible
Necesito calcular el espacio nulo de varios miles de matrices pequeñas (8x9, no 4x3 como escribí anteriormente) en paralelo (CUDA). Todas las referencias apuntan a SVD, pero el algoritmo en recetas numéricas parece muy costoso y me da muchas ...
Compilar código cuda para CPU
Estoy estudiando cuda 5.5 pero no tengo ninguna GPU Nvidia. En la versión anterior de nvcc tiene un indicador --multicore para compilar código cuda para CPU. En la nueva versión de nvcc, ¿cuál es la opción? Estoy trabajando en Linux.
cub BlockRadixSort: ¿cómo lidiar con un gran tamaño de mosaico u ordenar múltiples mosaicos?
Cuando se usa cub :: BlockRadixSort para ordenar dentro de un bloque, si el número de elementos es demasiado grande, ¿cómo lidiamos con eso? Si configuramos un tamaño de mosaico para que sea demasiado grande, la memoria compartida para el ...