Спасибо за вашу помощь. @MiniQuark @ Олдрим

Question

May 15, 2018, 10:53 AM

Спасибо за вашу помощь. @MiniQuark @ Олдрим

анные обучения сохраняются в 3 файлах, каждый файл слишком велик и не может поместиться в памяти. Для каждого примера обучения данные имеют две размерности (2805 строк и 222 столбца, 222-й столбец для метки) и являются числовыми значениями. Я хотел бы нормализовать данные перед подачей в модели для обучения. Ниже приведен мой код для input_pipeline, и данные не были нормализованы до создания набора данных. Есть ли в тензорном потоке некоторые функции, которые могут сделать нормализацию для моего случая?

dataset = tf.data.TextLineDataset([file1, file2, file3])
# combine 2805 lines into a single example
dataset = dataset.batch(2805)

def parse_example(line_batch):
    record_defaults = [[1.0] for col in range(0, 221)]
    record_defaults.append([1])
    content = tf.decode_csv(line_batch, record_defaults = record_defaults, field_delim = '\t')
    features = tf.stack(content[0:221])
    features = tf.transpose(features)
    label = content[-1][-1]
    label = tf.one_hot(indices = tf.cast(label, tf.int32), depth = 2)
    return features, label

dataset = dataset.map(parse_example)
dataset = dataset.shuffle(1000)
# batch multiple examples
dataset = dataset.batch(batch_size)
dataset = dataset.repeat(num_epochs)
iterator = dataset.make_one_shot_iterator()
data_batch, label_batch = iterator.get_next()

Комментировать

Спасибо за вашу помощь. @MiniQuark @ Олдрим

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы