opção nvprof para largura de banda

Qual é a opção correta para medir a largura de banda usando o nvprof --metrics na linha de comando? Estou usando flop_dp_efficiency para obter a porcentagem de pico de FLOPS, mas parece haver muitas opções para medição de largura de banda no manual que realmente não entendo o que estou medindo. por exemplo. dram_read, dram_write, gld_read, gld_write parecem todos iguais para mim. Além disso, devo relatar a largura de banda como uma soma da taxa de transferência de leitura + gravação, assumindo que ambas acontecem simultaneamente?

Editar:

Com base na excelente resposta do diagrama, qual seria a largura de banda da memória do dispositivo para o kernel? Estou pensando em usar o mínimo da largura de banda (leitura + gravação) no caminho do kernel para a memória do dispositivo, que provavelmente é dram para o cache L2.

Eu estou tentando determinar se um kernel é vinculado à computação ou à memória medindo FLOPS e largura de banda.

questionAnswers(1)

yourAnswerToTheQuestion