опция nvprof для пропускной способности

Как правильно выбрать измерение полосы пропускания с помощью nvprof --metrics из командной строки? Я использую flop_dp_efficiency для получения процента пиковых значений FLOPS, но в руководстве, похоже, есть много вариантов измерения пропускной способности, которые я не совсем понимаю, что я измеряю. например dram_read, dram_write, gld_read, gld_write выглядят одинаково для меня. Кроме того, я должен сообщить полосу пропускания как сумму пропускной способности чтения + записи, предполагая, что оба происходят одновременно?

Редактировать:

Основываясь на превосходном ответе на диаграмме, какова будет пропускная способность, идущая от памяти устройства к ядру? Я думаю взять минимальную пропускную способность (чтение + запись) на пути от ядра к памяти устройства, которая, вероятно, перетаскивается в кэш L2.

Я пытаюсь определить, привязано ли ядро ​​к вычислениям или памяти, измеряя FLOPS и пропускную способность.

Ответы на вопрос(1)

Ваш ответ на вопрос