Как разместить разные входы в конвейере sklearn?

Question

Mar 28, 2016, 12:08 AM

pipeline scikit-learn python classification machine-learning

Как разместить разные входы в конвейере sklearn?

Я использую Pipeline от sklearn для классификации текста.

В этом примере конвейера у меня есть векторизатор TfIDF и некоторые пользовательские функции, обернутые FeatureUnion и классификатором в качестве шагов конвейера, затем я подгоняю данные обучения и делаю прогноз:

from sklearn.pipeline import FeatureUnion, Pipeline
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import LinearSVC

X = ['I am a sentence', 'an example']
Y = [1, 2]
X_dev = ['another sentence']

# load custom features and FeatureUnion with Vectorizer
features = []
measure_features = MeasureFeatures() # this class includes my custom features
features.append(('measure_features', measure_features))

countVecWord = TfidfVectorizer(ngram_range=(1, 3), max_features= 4000)
features.append(('ngram', countVecWord))

all_features = FeatureUnion(features)

# classifier
LinearSVC1 = LinearSVC(tol=1e-4,  C = 0.10000000000000001)

pipeline = Pipeline(
    [('all', all_features ),
    ('clf', LinearSVC1),
    ])

pipeline.fit(X, Y)
y_pred = pipeline.predict(X_dev)

# etc.

Приведенный выше код работает просто отлично, но есть поворот. Я хочу сделать часть речевого тегирования в тексте и использовать другой векторизатор в текстовом теге.

X = ['I am a sentence', 'an example']
X_tagged = do_tagging(X) 
# X_tagged = ['PP AUX DET NN', 'DET NN']
Y = [1, 2]
X_dev = ['another sentence']
X_dev_tagged = do_tagging(X_dev)

# load custom featues and FeatureUnion with Vectorizer
features = []
measure_features = MeasureFeatures() # this class includes my custom features
features.append(('measure_features', measure_features))

countVecWord = TfidfVectorizer(ngram_range=(1, 3), max_features= 4000)
# new POS Vectorizer
countVecPOS = TfidfVectorizer(ngram_range=(1, 4), max_features= 2000)

features.append(('ngram', countVecWord))
features.append(('pos_ngram', countVecWord))

all_features = FeatureUnion(features)

# classifier
LinearSVC1 = LinearSVC(tol=1e-4,  C = 0.10000000000000001)

pipeline = Pipeline(
    [('all', all_features ),
    ('clf', LinearSVC1),
    ])

# how do I fit both X and X_tagged here
# how can the different vectorizers get either X or X_tagged?
pipeline.fit(X, Y)
y_pred = pipeline.predict(X_dev)

# etc.

Как правильно подобрать данные такого рода? Как два векторизатора могут различать необработанный текст и текст pos? Какие у меня варианты?

У меня также есть пользовательские функции, некоторые из них будут принимать необработанный текст, а другие текст POS.

РЕДАКТИРОВАТЬ: Добавлено MeasureFeatures ()

from sklearn.base import BaseEstimator
import numpy as np

class MeasureFeatures(BaseEstimator):

    def __init__(self):
        pass

    def get_feature_names(self):
        return np.array(['type_token', 'count_nouns'])

    def fit(self, documents, y=None):
        return self

    def transform(self, x_dataset):


        X_type_token = list()
        X_count_nouns = list()

        for sentence in x_dataset:

            # takes raw text and calculates type token ratio
            X_type_token.append(type_token_ratio(sentence))

            # takes pos tag text and counts number of noun pos tags (NN, NNS etc.)
            X_count_nouns.append(count_nouns(sentence))

        X = np.array([X_type_token, X_count_nouns]).T

        print X
        print X.shape

        if not hasattr(self, 'scalar'):
        ,    self.scalar = StandardScaler().fit(X)
        return self.scalar.transform(X)

Затем этот преобразователь функций должен либо взять тегированный текст для функции count_nouns (), либо необработанный текст для type_token_ratio ()

Как разместить разные входы в конвейере sklearn?

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Как разместить разные входы в конвейере sklearn?

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы