Concurrencia en ejecuciones multi-GPU CUDA

Estoy ejecutando una función de kernel cuda en un sistema de múltiples GPUs, con4 GPUs. He esperado que se lancen simultáneamente, pero no lo son. Mido la hora de inicio de cada kernel, y el segundo kernel comienza después de que el primero termina su ejecución. Así que lanzando el kernel en4 GPU no es más rápido que1 GPU única.

¿Cómo puedo hacer que funcionen simultáneamente?

Este es mi código:

cudaSetDevice(0);
GPU_kernel<<< gridDim, threadsPerBlock >>>(d_result_0, parameterA +(0*rateA), parameterB + (0*rateB));
cudaMemcpyAsync(h_result_0, d_result_0, mem_size_result, cudaMemcpyDeviceToHost);

cudaSetDevice(1);
GPU_kernel<<< gridDim, threadsPerBlock >>>(d_result_1, parameterA +(1*rateA), parameterB + (1*rateB));
cudaMemcpyAsync(h_result_1, d_result_1, mem_size_result, cudaMemcpyDeviceToHost);

cudaSetDevice(2);
GPU_kernel<<< gridDim, threadsPerBlock >>>(d_result_2, parameterA +(2*rateA), parameterB + (2*rateB));
cudaMemcpyAsync(h_result_2, d_result_2, mem_size_result, cudaMemcpyDeviceToHost);

cudaSetDevice(3);
GPU_kernel<<< gridDim, threadsPerBlock >>>(d_result_3, parameterA +(3*rateA), parameterB + (3*rateB));
cudaMemcpyAsync(h_result_3, d_result_3, mem_size_result, cudaMemcpyDeviceToHost);

Respuestas a la pregunta(2)

Su respuesta a la pregunta