Como criar pipeline para várias colunas do quadro de dados?
Eu tenho o Dataframe que pode ser simplificado para isso:
import pandas as pd
df = pd.DataFrame([{
'title': 'batman',
'text': 'man bat man bat',
'url': 'batman.com',
'label':1},
{'title': 'spiderman',
'text': 'spiderman man spider',
'url': 'spiderman.com',
'label':1},
{'title': 'doctor evil',
'text': 'a super evil doctor',
'url': 'evilempyre.com',
'label':0},])
E quero experimentar diferentes métodos de extração de recursos: TFIDF, word2vec, Coutvectorizer com diferentes configurações de ngram, etc. Mas quero experimentá-lo em diferentes combinações: um conjunto de recursos conterá dados de 'texto' transformados com TFIDF e 'url' com O countvectoriser e o segundo terão os dados de texto convertidos por w2v e 'url' por TFIDF e assim por diante. No final, é claro, quero fazer uma comparação de diferentes estratégias de pré-processamento e escolher a melhor.
E aqui estão as perguntas:
Existe uma maneira de fazer essas coisas usando ferramentas sklearn padrão como o Pipeline?
Existe um senso comum na minha ideia? Talvez haja boas idéias de como tratar dados de texto com muitas colunas nos Dataframes que estão faltando?
Muito Obrigado!