¿Cómo explico la variabilidad del rendimiento en el bus PCIe?
En mi programa CUDA, veo una gran variabilidad entre diferentes ejecuciones (hasta 50%) en el tiempo de comunicación, que incluye tiempos de transferencia de datos de host a dispositivo y de dispositivo a host a través de PCI Express para memoria fijada. ¿Cómo puedo explicar esta variabilidad? ¿Ocurre cuando el controlador PCI y el controlador de memoria están ocupados realizando otras transferencias PCIe? Cualquier idea / referencia es muy apreciada. La GPU es Tesla K20c, el host es AMD Opteron 6168 con 12 núcleos que ejecutan el sistema operativo Linux. La versión PCI Express es 2.0.