Значение ключа принимает метку столбца panda dataframe. При использовании в вашем конвейере его можно применять как:
я есть Dataframe, который можно упростить до этого:
import pandas as pd
df = pd.DataFrame([{
'title': 'batman',
'text': 'man bat man bat',
'url': 'batman.com',
'label':1},
{'title': 'spiderman',
'text': 'spiderman man spider',
'url': 'spiderman.com',
'label':1},
{'title': 'doctor evil',
'text': 'a super evil doctor',
'url': 'evilempyre.com',
'label':0},])
И я хочу попробовать разные методы извлечения функций: TFIDF, word2vec, Coutvectorizer с разными настройками ngram и т. Д. Но я хочу попробовать это в разных комбинациях: один набор функций будет содержать «текстовые» данные, преобразованные с помощью TFIDF, и «url» с Countvectoriser и second будут иметь текстовые данные, преобразованные с помощью w2v, и url с помощью TFIDF и так далее. В конце, конечно же, я хочу сравнить различные стратегии предварительной обработки и выбрать лучшую.
И вот вопросы:
Есть ли способ сделать такие вещи, используя стандартные инструменты sklearn, такие как Pipeline?
Есть ли в моей идее здравый смысл? Может быть, есть хорошие идеи, как обрабатывать текстовые данные со многими столбцами в кадрах данных, которые мне не хватает?
Большое спасибо!