Comprender las colas de flujo de tensor y la transferencia de CPU <-> gpu

Después de leer este problema de github, siento que me falta algo en mi entendimiento sobre las colas:

https://github.com/tensorflow/tensorflow/issues/3009

Pensé que cuando se cargan datos en una cola, se transferirán previamente a la GPU mientras se computa el último lote, por lo que prácticamente no hay cuello de botella en el ancho de banda, suponiendo que el cómputo demore más que el tiempo para cargar el siguiente lote.

Pero el enlace anterior sugiere que hay una copia costosa de la cola en el gráfico (numpy <-> TF) y que sería más rápido cargar los archivos en el gráfico y hacer el preprocesamiento allí. Pero eso no tiene sentido para mí. ¿Por qué importa si cargo una imagen de 256x256 del archivo frente a una matriz numpy sin procesar? En todo caso, creo que la versión numpy es más rápida. ¿Qué me estoy perdiendo?

Respuestas a la pregunta(2)

Su respuesta a la pregunta