Como criar pipeline para várias colunas do quadro de dados?

Question

Dec 19, 2017, 10:27 PM

Como criar pipeline para várias colunas do quadro de dados?

Eu tenho o Dataframe que pode ser simplificado para isso:

import pandas as pd

df = pd.DataFrame([{
'title': 'batman',
'text': 'man bat man bat', 
'url': 'batman.com', 
'label':1}, 
{'title': 'spiderman',
'text': 'spiderman man spider', 
'url': 'spiderman.com', 
'label':1},
{'title': 'doctor evil',
 'text': 'a super evil doctor', 
'url': 'evilempyre.com', 
'label':0},])

E quero experimentar diferentes métodos de extração de recursos: TFIDF, word2vec, Coutvectorizer com diferentes configurações de ngram, etc. Mas quero experimentá-lo em diferentes combinações: um conjunto de recursos conterá dados de 'texto' transformados com TFIDF e 'url' com O countvectoriser e o segundo terão os dados de texto convertidos por w2v e 'url' por TFIDF e assim por diante. No final, é claro, quero fazer uma comparação de diferentes estratégias de pré-processamento e escolher a melhor.

E aqui estão as perguntas:

Existe uma maneira de fazer essas coisas usando ferramentas sklearn padrão como o Pipeline?

Existe um senso comum na minha ideia? Talvez haja boas idéias de como tratar dados de texto com muitas colunas nos Dataframes que estão faltando?

Muito Obrigado!

leaveComments