Значение ключа принимает метку столбца panda dataframe. При использовании в вашем конвейере его можно применять как:

я есть Dataframe, который можно упростить до этого:

import pandas as pd

df = pd.DataFrame([{
'title': 'batman',
'text': 'man bat man bat', 
'url': 'batman.com', 
'label':1}, 
{'title': 'spiderman',
'text': 'spiderman man spider', 
'url': 'spiderman.com', 
'label':1},
{'title': 'doctor evil',
 'text': 'a super evil doctor', 
'url': 'evilempyre.com', 
'label':0},])

И я хочу попробовать разные методы извлечения функций: TFIDF, word2vec, Coutvectorizer с разными настройками ngram и т. Д. Но я хочу попробовать это в разных комбинациях: один набор функций будет содержать «текстовые» данные, преобразованные с помощью TFIDF, и «url» с Countvectoriser и second будут иметь текстовые данные, преобразованные с помощью w2v, и url с помощью TFIDF и так далее. В конце, конечно же, я хочу сравнить различные стратегии предварительной обработки и выбрать лучшую.

И вот вопросы:

Есть ли способ сделать такие вещи, используя стандартные инструменты sklearn, такие как Pipeline?

Есть ли в моей идее здравый смысл? Может быть, есть хорошие идеи, как обрабатывать текстовые данные со многими столбцами в кадрах данных, которые мне не хватает?

Большое спасибо!

Ответы на вопрос(1)

Ваш ответ на вопрос