Programación CUDA - cachés L1 y L2
¿Podría explicar las diferencias entre el uso de cachés "L1 y L2" o "solo L2" en la programación CUDA? ¿Qué debo esperar en la ejecución del tiempo? ¿Cuándo podría esperar un tiempo de gpu menor? ¿Cuando habilito los cachés L1 y L2 o simplemente habilito L2? Gracias