Noções básicas sobre filas de tensorflow e transferência de CPU <-> gpu

Depois de ler esta edição do github, sinto que estou perdendo algo no meu entendimento nas filas:

https://github.com/tensorflow/tensorflow/issues/3009

Eu pensei que, ao carregar dados em uma fila, eles serão pré-transferidos para a GPU enquanto o último lote estiver sendo computado, para que não haja virtualmente nenhum gargalo de largura de banda, supondo que a computação demore mais do que o tempo para carregar o próximo lote.

Mas o link acima sugere que existe uma cópia cara da fila no gráfico (numpy <-> TF) e que seria mais rápido carregar os arquivos no gráfico e fazer o pré-processamento lá. Mas isso não faz sentido para mim. Por que importa se eu carrego uma imagem de 256 x 256 do arquivo versus uma matriz numpy não processada? Se alguma coisa, eu acho que a versão numpy é mais rápida. o que estou perdendo?

questionAnswers(2)

yourAnswerToTheQuestion