Объединение классификатора байки слов с произвольными числовыми полями
Как бы вы слили научную игруклассификатор который работает над мешком слов с тем, который работает с произвольными числовыми полями?
Я знаю, что это в основном то же самое за кулисами, но мне трудно понять, как это сделать с помощью существующих библиотечных методов. Например, мой классификатор мешков слов использует конвейер:
classifier = Pipeline([
('vectorizer', HashingVectorizer(ngram_range=(1,4), non_negative=True)),
('tfidf', TfidfTransformer()),
('clf', OneVsRestClassifier(LinearSVC())),
])
classifier.fit(['some random text','some other text', ...], [CLS_A, CLS_B, ...])
В то время как мое другое использование похоже на:
classifier = LinearSVC()
classifier.fit([1.23, 4.23, ...], [CLS_A, CLS_B, ...])
Как бы я сконструировал классификатор LinearSVC, который можно тренировать, используя оба набора данных одновременно? например
classifier = ?
classifier.fit([('some random text',1.23),('some other text',4.23), ...], [CLS_A, CLS_B, ...])