Cómo copiar memoria entre diferentes gpus en cuda

Actualmente estoy trabajando con dos gtx 650. Mi programa se asemeja en una estructura simple de Clientes / Servidor. Distribuyo los hilos de trabajo en los dos gpus. El subproceso del servidor debe reunir los vectores de resultados de los subprocesos del cliente, por lo que necesito copiar la memoria entre los dos gpu. Desafortunadamente, el simple programa P2P en muestras de cuda simplemente no funciona porque mis tarjetas no tienen controladores TCC. Pasando dos horas buscando en google y SO, no puedo encontrar la respuesta. Algunas fuentes dicen que debería usarcudaMemcpyPeer , y alguna otra fuente dice que debería usarcudaMemcpy concudaMemcpyDefault. ¿Hay alguna manera simple de hacer mi trabajo que no sea copiar al host y luego copiar al dispositivo? Sé que debe haber sido documentado en alguna parte, pero no puedo encontrarlo. Gracias por su ayuda.

Respuestas a la pregunta(1)

Su respuesta a la pregunta