Por que a memória fixada pela CUDA é tão rápida?

Observo acelerações substanciais na transferência de dados quando uso memória fixada para transferências de dados CUDA. No linux, a chamada subjacente do sistema para conseguir isso é mlock. Na página de manual do mlock, ele afirma que o bloqueio da página impede que ela seja trocada:

mlock () bloqueia páginas no intervalo de endereços começando em addr e continuando por bytes len. Todas as páginas que contêm uma parte do intervalo de endereços especificado são garantidas como residentes na RAM quando a chamada retornar com sucesso;

Nos meus testes, eu tinha alguns shows de memória livre no meu sistema, para que nunca houvesse risco de que as páginas de memória pudessem ser trocadas, mas ainda assim observei a aceleração. Alguém pode explicar o que realmente está acontecendo aqui ?, qualquer insight ou informação é muito apreciada.

questionAnswers(3)

yourAnswerToTheQuestion