Resultados de la búsqueda a petición "cuda"

1 la respuesta

Cómo puede usar la función de grupos cooperativos de CUDA en Windows

Mi GPU es GeForce MX150, arquitectura pascal, CC. 6.1, CUDA 9.1, windows 10. Aunque mi GPU es pascal pero los grupos cooperativos no funcionan. Quiero usarlo para la sincronización entre bloques. Encontré que mi modo tcc no está activo. También ...

2 la respuesta

CUBLAS - adición de matriz ... ¿cómo?

Estoy tratando de usar CUBLAS para sumar dos grandes matrices de tamaño desconocido. Necesito un código completamente optimizado (si es posible), así que decidí no reescribir el código de adición de matriz (simple) sino usar CUBLAS, en ...

4 la respuesta

Empuje dentro de los núcleos escritos por el usuario

Soy un novato en Thrust. Veo que todas las presentaciones y ejemplos de Thrust solo muestran el código de host. ¿Me gustaría saber si puedo pasar un device_vector a mi propio kernel? ¿Cómo? En caso afirmativo, ¿cuáles son las operaciones ...

2 la respuesta

Thrust: Eliminando duplicados en matrices de valores clave

Tengo un par de matrices de igual tamaño, las llamaré claves y valores. Por ejemplo K: V 1: 99 1: 100 1: 100 1: 100 1: 103 2: 103 2: 105 3: 45 3: 67Las claves están ordenadas y los valores asociadoscon cada tecla están ordenados. Cómo ...

5 la respuesta

asignación de memoria compartida

Estoy tratando de asignar memoria compartida usando un parámetro constante pero obteniendo un error. mi núcleo se ve así: __global__ void Kernel(const int count) { __shared__ int a[count]; }y recibo un error que dice error: la expresión debe ...

1 la respuesta

CUDA cómo obtener cuadrícula, bloque, tamaño de rosca y paralarizar el cálculo de matriz no cuadrada

Soy nuevo en CUDA y necesito ayuda para comprender algunas cosas. Necesito ayuda para paralelizar estos dos para bucles. Específicamente cómo configurar dimBlock y dimGrid para que esto se ejecute más rápido. Sé que esto se parece al ejemplo de ...

1 la respuesta

Matrix resolviendo con C (dentro de CUDA)

omo parte de un problema mayor, necesito resolver pequeños sistemas lineales (es decir, NxN, donde N ~ 10), por lo que usar las bibliotecas de Cuda relevantes no tiene ningún sentido en términos de velocidad. esafortunadamente, algo que tampoco ...

1 la respuesta

CUDA: Llamar a una función __device__ desde un kernel

Tengo un kernel que llama a undispositivunción @ dentro de una declaración if. El código es el siguiente __device__ void SetValues(int *ptr,int id) { if(ptr[threadIdx.x]==id) //question related to here ptr[threadIdx.x]++; } __global__ void ...

3 la respuesta

Tratamiento con condiciones de contorno / regiones de halo en CUDA

Estoy trabajando en el procesamiento de imágenes con CUDA y tengo dudas sobre el procesamiento de píxeles. o que a menudo se hace con los píxeles de límite de una imagen cuando se aplica unam x m filtro de convolución? En un3 x 3 núcleo de ...

3 la respuesta

¿Por qué la memoria fija CUDA es tan rápida?

Observo aceleraciones sustanciales en la transferencia de datos cuando uso la memoria fija para transferencias de datos CUDA. En Linux, la llamada del sistema subyacente para lograr esto es mlock. Desde la página de manual de mlock, indica que ...