Desempenho de cópia zero da Cuda

Alguém tem experiência com a análise do desempenho de aplicações CUDA utilizando a cópia zero (referência aqui:Memória Fixada Padrão Vs Memória de Cópia Zeromodelo de memória?

Eu tenho um kernel que usa o recurso de cópia zero e com NVVP eu vejo o seguinte:

Rodando o kernel em um tamanho médio de problema, recebo uma sobrecarga de repetição de instrução de 0,7%, então nada maior. E tudo isso 0,7% é uma sobrecarga de memória global.

Quando eu realmente aumento o tamanho do problema, recebo uma sobrecarga de replay de 95,7%, tudo devido à sobrecarga de repetição de memória global.

No entanto, a eficiência de carregamento global e a eficiência de armazenamento global para a execução normal do kernel de tamanho do problema e a execução muito grande do kernel de tamanho do problema são as mesmas. Não tenho certeza do que fazer com essa combinação de métricas.

A principal coisa que não tenho certeza é de qual estatística em NVVP me ajudará a ver o que está acontecendo com o recurso de cópia zero. Alguma idéia de que tipo de estatística eu deveria estar olhando?

questionAnswers(1)

yourAnswerToTheQuestion