¿Cómo explico la variabilidad del rendimiento en el bus PCIe?

En mi programa CUDA, veo una gran variabilidad entre diferentes ejecuciones (hasta 50%) en el tiempo de comunicación, que incluye tiempos de transferencia de datos de host a dispositivo y de dispositivo a host a través de PCI Express para memoria fijada. ¿Cómo puedo explicar esta variabilidad? ¿Ocurre cuando el controlador PCI y el controlador de memoria están ocupados realizando otras transferencias PCIe? Cualquier idea / referencia es muy apreciada. La GPU es Tesla K20c, el host es AMD Opteron 6168 con 12 núcleos que ejecutan el sistema operativo Linux. La versión PCI Express es 2.0.

Respuestas a la pregunta(1)

Su respuesta a la pregunta