stackoverflow.com/q/49861235/1919374
отал с наборами данных и feature_columns в tenorflow (https://developers.googleblog.com/2017/11/introducing-tensorflow-feature-columns.html). Я вижу, что у них есть категориальные функции и способ создания встраиваемых функций из категориальных функций. Но когда мы работаем над задачами nlp, как мы можем создать единый поиск встраивания?
Например: рассмотрим задачу классификации текста. Каждая точка данных будет иметь много текстовых столбцов, но они не будут отдельными категориями. Как мы можем создать и использовать единый поиск для всех этих столбцов?
Ниже приведен пример того, как я в настоящее время использую функции встраивания. Я создаю категориальную функцию для каждого столбца и использую ее для создания встраивания. Проблема заключается в том, что вложения для одного и того же слова могут быть разными для разных столбцов.
def create_embedding_features(key, vocab_list=None, embedding_size=20):
cat_feature = \
tf.feature_column.categorical_column_with_vocabulary_list(
key=key,
vocabulary_list = vocab_list
)
embedding_feature = tf.feature_column.embedding_column(
categorical_column = cat_feature,
dimension = embedding_size
)
return embedding_feature
le_features_embd = [create_embedding_features(f, vocab_list=vocab_list)
for f in feature_keys]