Как определить поток устройства назначения в cudaMemcpyPeerAsync ()?

Я делаю асинхронный memcpy из gpu0 в gpu1 с помощью cudaMemcpyPeerAsync ().

cudaMemcpyAsync () предоставляет возможность использования потока для gpu0, но не для gpu1. Можно ли как-то определить поток принимающего устройства тоже?

Я использую потоки OpenMP для управления каждым из устройств (поэтому они находятся в отдельном контексте).

Visual Profiler показывает поток для отправляющего устройства, но для принимающего устройства, этот memcpy только что показан в MemCpy (PtoP), а не в каком-либо из потоков (даже в потоке по умолчанию)

PS: моя текущая реализация работает нормально. Я просто хочу перекрывать отправку и получение связи.

Ответы на вопрос(1)

Ваш ответ на вопрос