данных, что означает, что параметры являются общими для всех данных.
тоящее время я разрабатываю инструмент классификации текста с использованием Keras. Это работает (работает нормально, и я получил точность проверки до 98,7), но я не могу понять, как именно слой 1D-свертки работает с текстовыми данными.
Какие гиперпараметры мне следует использовать?
У меня есть следующие предложения (входные данные):
Максимальное количество слов в предложении: 951 (если оно меньше - добавляются отступы)Размер словаря: ~ 32000Количество предложений (для обучения): 9800embedding_vecor_length: 32 (сколько связей имеет каждое слово в встраивании слов)batch_size: 37 (для этого вопроса не имеет значения)Количество ярлыков (классов): 4Это очень простая модель (я сделал более сложные структуры, но, как ни странно, она работает лучше - даже без использования LSTM):
model = Sequential()
model.add(Embedding(top_words, embedding_vecor_length, input_length=max_review_length))
model.add(Conv1D(filters=32, kernel_size=2, padding='same', activation='relu'))
model.add(MaxPooling1D(pool_size=2))
model.add(Flatten())
model.add(Dense(labels_count, activation='softmax'))
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
print(model.summary())
Мой главный вопрос: какие гиперпараметры я должен использовать для слоя Conv1D?
model.add(Conv1D(filters=32, kernel_size=2, padding='same', activation='relu'))
Если у меня есть следующие входные данные:
Максимальное количество слов: 951Размер вложения слов: 32Означает ли это, чтоfilters=32
будет сканировать только первые 32 слова, полностью отбрасывая остальныеkernel_size=2
)? И я должен установить фильтры на 951 (максимальное количество слов в предложении)?
Примеры на изображениях:
Так, например, это входные данные:http://joxi.ru/krDGDBBiEByPJA
Это первый шаг конвульсионного слоя (шаг 2):http://joxi.ru/Y2LB099C9dWkOr
Это второй шаг (шаг 2):http://joxi.ru/brRG699iJ3Ra1m
И еслиfilters = 32
слой повторяет это 32 раза? Я прав? Так я не буду произносить 156-е слово в предложении, и, таким образом, эта информация будет потеряна?