¿Cómo maneja Tensorflow las funciones categóricas con múltiples entradas dentro de una columna?
Por ejemplo, tengo datos en lo siguientecsv
formato:
csv
col0 col1 col2 col3
1 A E|A|C 3
0 B D|F 2
2 C | 2
Cada columna separada por comas representa una característica. Normalmente, una característica es única (p. Ej.col0, col1, col3
), pero en este caso, la función paracol2
tiene múltiples entradas (separadas por |).
Estoy seguro de que tensorflow puede manejar funciones de un solo hot con tensor disperso, pero no estoy seguro de si podría manejar funciones con múltiples entradas comocol2
?
¿Cómo se debe representar en el tensor disperso de Tensorflow?
Estoy usando el siguiente código (pero no sé el método de entrada decol2
)
col0 = tf.feature_column.numeric_column('ID')
col1 = tf.feature_column.categorical_column_with_hash_bucket('Title', hash_bucket_size=1000)
col3 = tf.feature_column.numeric_column('Score')
columns = [col0, col1, col3]
tf.estimator.DNNClassifier(
model_dir=None,
feature_columns=columns,
hidden_units=[10, 10],
n_classes=4
)
Gracias por tu ayuda.