Cuda производительность без копий

Кто-нибудь имеет опыт анализа производительности приложений CUDA с использованием нулевой копии (ссылка здесь:Прикрепленная по умолчанию память против памяти с нулевым копированием) модель памяти?

У меня есть ядро, которое использует функцию нулевого копирования, и с NVVP я вижу следующее:

При запуске ядра со средним размером проблемы накладные расходы на воспроизведение инструкций составляют 0,7%, поэтому ничего особенного. И все эти 0,7% являются глобальными затратами на воспроизведение памяти.

Когда я действительно увеличиваю размер проблемы, я получаю накладные расходы при воспроизведении инструкций в размере 95,7%, и все это из-за глобальных накладных расходов при воспроизведении памяти.

Однако глобальная эффективность загрузки и эффективность глобального хранилища как для ядра с нормальным размером проблемы, так и для ядра с очень большим размером проблемы одинаковы. Я'Я не совсем уверен, что делать с этой комбинацией метрик.

Главное яЯ не уверен, какая статистика в NVVP поможет мне увидеть, что происходит с функцией нулевого копирования. Любые идеи о том, какой тип статистики я должен смотреть?

Ответы на вопрос(1)

Ваш ответ на вопрос