Хорошее смешивание со многими входными файлами данных в тензорном потоке

Я работаю с tenorflow, надеясь обучить глубокому CNN предсказанию хода игры Go. Созданный мною набор данных состоит из 100 000 двоичных файлов данных, где каждый файл данных соответствует записанной игре и содержит примерно 200 тренировочных образцов (по одному на каждый ход в игре). Я считаю, что очень важно получить хорошее микширование при использовании SGD. Я бы хотел, чтобы мои партии содержали образцы из разных игр и образцы из разных этапов игр. Так, например, простое чтение одного сэмпла с начала 100 файлов и перетасовка не годятся, потому что эти 100 сэмплов будут первым ходом каждой игры.

Я прочитал учебник по подаче данных из файлов, но я не уверен, что их библиотеки делают то, что мне нужно. Если бы я сам его жестко запрограммировал, я бы в основном инициализировал несколько файловых указателей в случайных местах в каждом файле, а затем извлекал образцы из случайных файлов, соответственно увеличивая указатели файлов.

Итак, мой вопрос заключается в том, предоставляет ли тензорный поток такую ​​функциональность, или было бы проще написать собственный код для создания пакетов?

Ответы на вопрос(2)

Ваш ответ на вопрос