¿Por qué la memoria fija CUDA es tan rápida?

Observo aceleraciones sustanciales en la transferencia de datos cuando uso la memoria fija para transferencias de datos CUDA. En Linux, la llamada del sistema subyacente para lograr esto es mlock. Desde la página de manual de mlock, indica que bloquear la página evita que se intercambie:

mlock () bloquea páginas en el rango de direcciones que comienzan en addr y continúan para len bytes. Se garantiza que todas las páginas que contienen una parte del rango de direcciones especificado residen en la RAM cuando la llamada regresa con éxito;

En mis pruebas, tuve algunos conciertos de memoria libre en mi sistema, por lo que nunca hubo ningún riesgo de que las páginas de memoria pudieran haberse cambiado, pero aún así observé la aceleración. ¿Alguien puede explicar lo que realmente está sucediendo aquí ?, cualquier idea o información es muy apreciada.