stackoverflow.com/q/49861235/1919374

отал с наборами данных и feature_columns в tenorflow (https://developers.googleblog.com/2017/11/introducing-tensorflow-feature-columns.html). Я вижу, что у них есть категориальные функции и способ создания встраиваемых функций из категориальных функций. Но когда мы работаем над задачами nlp, как мы можем создать единый поиск встраивания?

Например: рассмотрим задачу классификации текста. Каждая точка данных будет иметь много текстовых столбцов, но они не будут отдельными категориями. Как мы можем создать и использовать единый поиск для всех этих столбцов?

Ниже приведен пример того, как я в настоящее время использую функции встраивания. Я создаю категориальную функцию для каждого столбца и использую ее для создания встраивания. Проблема заключается в том, что вложения для одного и того же слова могут быть разными для разных столбцов.

def create_embedding_features(key, vocab_list=None, embedding_size=20):
    cat_feature = \
        tf.feature_column.categorical_column_with_vocabulary_list(
            key=key,
            vocabulary_list = vocab_list
            )
    embedding_feature = tf.feature_column.embedding_column(
            categorical_column = cat_feature,
            dimension = embedding_size
        )
    return embedding_feature

le_features_embd = [create_embedding_features(f, vocab_list=vocab_list)
                     for f in feature_keys]

Ответы на вопрос(1)

Ваш ответ на вопрос