CUDA fusionó el acceso a la memoria global

Question

Apr 26, 2012, 01:30 AM

CUDA fusionó el acceso a la memoria global

He leído la guía de programación CUDA, pero me perdí una cosa. Digamos que tengo una matriz de int de 32 bits en la memoria global y quiero copiarla en la memoria compartida con acceso combinado. La matriz global tiene índices de 0 a 1024, y digamos que tengo 4 bloques cada uno con 256 subprocesos.

<code>__shared__ int sData[256];
</code>

¿Cuándo se realiza el acceso coalescido?

1.

<code>sData[threadIdx.x] = gData[threadIdx.x * blockIdx.x+gridDim.x*blockIdx.y];
</code>

Las direcciones en la memoria global se copian de 0 a 255, cada una por 32 hilos en warp, así que aquí está bien.

2.

<code>sData[threadIdx.x] = gData[threadIdx.x * blockIdx.x+gridDim.x*blockIdx.y + someIndex];
</code>

Si someIndex no es múltiplo de 32, ¿no se fusiona? ¿Direcciones desalineadas? ¿Es eso correcto?

Respuestas a la pregunta(4)

Preguntas populares

0 la respuesta

la compilación y el escaneo de Clang no funciona para un simple archivo cpp

0 la respuesta

¿Qué hace add_lvalue_reference?

0 la respuesta

¿Cuál es el tipo real de parámetro objeto en el método de votación del votante de decisión de acceso de seguridad de primavera?

0 la respuesta

Streaming RTP / RTSP: problemas de sincronización / marca de tiempo

0 la respuesta

window.open con destino "_blank" en Chrome

¡Eres muy activo! ¡Es genial!

CUDA fusionó el acceso a la memoria global

Respuestas a la pregunta(4)

Su respuesta a la pregunta

Preguntas populares