Atualizando os nomes dos recursos no scikit TFIdfVectorizer
Estou testando este código
from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np
train_data = ["football is the sport","gravity is the movie", "education is imporatant"]
vectorizer = TfidfVectorizer(sublinear_tf=True, max_df=0.5,
stop_words='english')
print "Applying first train data"
X_train = vectorizer.fit_transform(train_data)
print vectorizer.get_feature_names()
print "\n\nApplying second train data"
train_data = ["cricket", "Transformers is a film","AIMS is a college"]
X_train = vectorizer.transform(train_data)
print vectorizer.get_feature_names()
print "\n\nApplying fit transform onto second train data"
X_train = vectorizer.fit_transform(train_data)
print vectorizer.get_feature_names()
A saída para este é
Applying first train data
[u'education', u'football', u'gravity', u'imporatant', u'movie', u'sport']
Applying second train data
[u'education', u'football', u'gravity', u'imporatant', u'movie', u'sport']
Applying fit transform onto second train data
[u'aims', u'college', u'cricket', u'film', u'transformers']
Forneci o primeiro conjunto de dados usando fit_transform para o vetorizador, para que ele me desse nomes de recursos como[u'education', u'football', u'gravity', u'imporatant', u'movie', u'sport']
Depois disso, apliquei outro conjunto de trem no mesmo vetorizador, mas ele me deu os mesmos nomes de recursos que eu não usei fit ou fit_transform. Mas quero saber como atualizar os recursos de um vetorizador sem substituir os oncs anteriores. Se eu usar o fit_transform novamente, os recursos anteriores serão substituídos. Então, eu quero atualizar a lista de recursos do vetorizador. Então, eu quero algo como[u'education', u'football', u'gravity', u'imporatant', u'movie', u'sport',u'aims', u'college', u'cricket', u'film', u'transformers']
Como eu consigo isso.