Mesclando o classificador de scikits bag-of-words com campos numéricos arbitrários
Como você iria mesclar um scikits-learnclassificador que opera sobre um saco de palavras com um que opera em campos numéricos arbitrários?
Eu sei que estas são basicamente a mesma coisa por trás das cenas, mas estou tendo problemas para descobrir como fazer isso através dos métodos de biblioteca existentes. Por exemplo, meu classificador de saco de palavras usa o pipeline:
classifier = Pipeline([
('vectorizer', HashingVectorizer(ngram_range=(1,4), non_negative=True)),
('tfidf', TfidfTransformer()),
('clf', OneVsRestClassifier(LinearSVC())),
])
classifier.fit(['some random text','some other text', ...], [CLS_A, CLS_B, ...])
Considerando que meu outro uso é como:
classifier = LinearSVC()
classifier.fit([1.23, 4.23, ...], [CLS_A, CLS_B, ...])
Como eu construiria um classificador LinearSVC que poderia ser treinado usando os dois conjuntos de dados simultaneamente? por exemplo.
classifier = ?
classifier.fit([('some random text',1.23),('some other text',4.23), ...], [CLS_A, CLS_B, ...])