Как определить поток устройства назначения в cudaMemcpyPeerAsync ()?
Я делаю асинхронный memcpy из gpu0 в gpu1 с помощью cudaMemcpyPeerAsync ().
cudaMemcpyAsync () предоставляет возможность использования потока для gpu0, но не для gpu1. Можно ли как-то определить поток принимающего устройства тоже?
Я использую потоки OpenMP для управления каждым из устройств (поэтому они находятся в отдельном контексте).
Visual Profiler показывает поток для отправляющего устройства, но для принимающего устройства, этот memcpy только что показан в MemCpy (PtoP), а не в каком-либо из потоков (даже в потоке по умолчанию)
PS: моя текущая реализация работает нормально. Я просто хочу перекрывать отправку и получение связи.