Scalanie klasyfikatora scikits worka słów z dowolnymi polami liczbowymi
Jak połączyłbyś naukę o scikitsklasyfikator który działa na worku ze słowami, które działają na dowolnych polach numerycznych?
Wiem, że są to te same rzeczy za kulisami, ale mam problem z ustaleniem, jak to zrobić za pomocą istniejących metod bibliotecznych. Na przykład mój klasyfikator work-of-words używa potoku:
classifier = Pipeline([
('vectorizer', HashingVectorizer(ngram_range=(1,4), non_negative=True)),
('tfidf', TfidfTransformer()),
('clf', OneVsRestClassifier(LinearSVC())),
])
classifier.fit(['some random text','some other text', ...], [CLS_A, CLS_B, ...])
Podczas gdy moje inne użycie jest jak:
classifier = LinearSVC()
classifier.fit([1.23, 4.23, ...], [CLS_A, CLS_B, ...])
Jak skonstruowałbym klasyfikator LinearSVC, który mógłby być szkolony przy użyciu obu zbiorów danych jednocześnie? na przykład
classifier = ?
classifier.fit([('some random text',1.23),('some other text',4.23), ...], [CLS_A, CLS_B, ...])