CUDA - quanto mais lento está transferindo sobre o PCI-E?

Se eu transferir um único byte de um kernel CUDA para PCI-E para o host (memória de cópia zero), quanto é lento comparado à transferência de algo como 200 Megabytes?

O que eu gostaria de saber, desde que eu sei que a transferência através de PCI-E é lenta para um kernel CUDA, é: isso muda alguma coisa se eu transferir apenas um único byte ou uma quantidade enorme de dados? Ou talvez, uma vez que as transferências de memória são realizadas em "volumes", transferir um único byte é extremamente caro e inútil em relação à transferência de 200 MBs?

questionAnswers(1)

yourAnswerToTheQuestion