Cuda производительность без копий

Question

Dec 14, 2012, 01:38 AM

Cuda производительность без копий

Кто-нибудь имеет опыт анализа производительности приложений CUDA с использованием нулевой копии (ссылка здесь:Прикрепленная по умолчанию память против памяти с нулевым копированием) модель памяти?

У меня есть ядро, которое использует функцию нулевого копирования, и с NVVP я вижу следующее:

При запуске ядра со средним размером проблемы накладные расходы на воспроизведение инструкций составляют 0,7%, поэтому ничего особенного. И все эти 0,7% являются глобальными затратами на воспроизведение памяти.

Когда я действительно увеличиваю размер проблемы, я получаю накладные расходы при воспроизведении инструкций в размере 95,7%, и все это из-за глобальных накладных расходов при воспроизведении памяти.

Однако глобальная эффективность загрузки и эффективность глобального хранилища как для ядра с нормальным размером проблемы, так и для ядра с очень большим размером проблемы одинаковы. Я'Я не совсем уверен, что делать с этой комбинацией метрик.

Главное яЯ не уверен, какая статистика в NVVP поможет мне увидеть, что происходит с функцией нулевого копирования. Любые идеи о том, какой тип статистики я должен смотреть?

Cuda производительность без копий

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Cuda производительность без копий

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы