Понимание очередей тензорного потока и передачи процессора <-> gpu
После прочтения этой проблемы с github я чувствую, что что-то упустил в моем понимании очередей:
https://github.com/tensorflow/tensorflow/issues/3009
Я думал, что при загрузке данных в очередь они будут предварительно перенесены в графический процессор, пока вычисляется последний пакет, так что узкое место в пропускной способности практически отсутствует, при условии, что вычисление занимает больше времени, чем время загрузки следующего пакета.
Но приведенная выше ссылка предполагает наличие дорогой копии из очереди в граф (numpy <-> TF) и что было бы быстрее загрузить файлы в граф и выполнить вместо них предварительную обработку. Но это не имеет смысла для меня. Почему это имеет значение, если я загружаю изображение размером 256x256 из файла по сравнению с необработанным массивом? Во всяком случае, я думаю, что версия NumPy быстрее Чего мне не хватает?