Opción nvprof para ancho de banda

¿Cuál es la opción correcta para medir el ancho de banda usando nvprof --metrics desde la línea de comandos? Estoy usando flop_dp_efficiency para obtener el porcentaje de FLOPS pico, pero parece que hay muchas opciones para la medición del ancho de banda en el manual que realmente no entiendo lo que estoy midiendo. p.ej. dram_read, dram_write, gld_read, gld_write me parecen iguales. Además, ¿debo informar bandwdith como una suma de rendimiento de lectura + escritura suponiendo que ambos sucedan simultáneamente?

Editar:

Según la excelente respuesta con el diagrama, ¿cuál sería el ancho de banda que va desde la memoria del dispositivo al núcleo? Estoy pensando en tomar el mínimo del ancho de banda (lectura + escritura) en la ruta del núcleo a la memoria del dispositivo, que probablemente sea dramático en la caché L2.

Estoy tratando de determinar si un núcleo está vinculado a la computadora o la memoria midiendo FLOPS y ancho de banda.

Respuestas a la pregunta(1)

Su respuesta a la pregunta