Объединение пользовательских функций с CountVectorizer

У меня есть куча файлов со статьями. Для каждой статьи должно быть несколько функций, таких как:длина текста, text_spam (все являются целыми числами или числами с плавающей запятой, и в большинстве случаев они должны быть загружены из CSV). И я хочу объединить эти функции с CountVectorizer, а затем классифицировать эти тексты.

Я смотрел некоторые учебные пособия, но до сих пор не знаю, как это реализовать. Нашел что-тоВот, но на самом деле не могу реализовать это для моих нужд.

Есть идеи, как это можно сделать с помощью Scikit?

Спасибо.

То, с чем я столкнулся прямо сейчас:

from sklearn.feature_extraction import DictVectorizer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.pipeline import FeatureUnion

measurements = [
    {'text_length': 1000, 'text_spam': 4.3},
    {'text_length': 2000, 'text_spam': 4.1},
]

corpus = [
    'some text',
    'some text 2 hooray',
]

vectorizer = DictVectorizer()
count_vectorizer = CountVectorizer(min_df=1)

first_x = vectorizer.fit_transform(measurements)
second_x = count_vectorizer.fit_transform(corpus)

combined_features = FeatureUnion([('first', first_x), ('second', second_x)])

Для этой связки кода я не понимаю, как загружать «реальные» данные, так как обучающие наборы уже загружены. И второй - как загрузить категории (параметр y для функции fit)?

Ответы на вопрос(1)

Ваш ответ на вопрос