Как объяснить изменчивость производительности по шине PCIe?

В моей программе CUDA я вижу большие различия между разными прогонами (до 50%) во времени связи, которые включают в себя время передачи данных между хостом и устройством для хоста через PCI Express для закрепленной памяти. Как я могу объяснить эту изменчивость? Это происходит, когда контроллер PCI и контроллер памяти заняты выполнением других передач PCIe? Любое понимание / ссылка очень ценится. Графический процессор - Tesla K20c, хост - AMD Opteron 6168 с 12 ядрами под управлением операционной системы Linux. Версия PCI Express 2.0.

Ответы на вопрос(1)

Ваш ответ на вопрос