Lesen Sie den Dokumentnamen in der scikit-learn tf-idf Matrix
Ich habe eine tf-idf-Matrix erstellt, möchte aber jetzt die ersten zwei Wörter für jedes Dokument abrufen. Ich möchte die ID des Dokuments übergeben und es sollte mir die ersten beiden Wörter geben.
Right now, ich habe diese Beispieldaten:
from sklearn.feature_extraction.text import TfidfVectorizer
d = {'doc1':"this is the first document",'doc2':"it is a sunny day"} ### corpus
test_v = TfidfVectorizer(min_df=1) ### applied the model
t = test_v.fit_transform(d.values())
feature_names = test_v.get_feature_names() ### list of words/terms
>>> feature_names
['day', 'document', 'first', 'is', 'it', 'sunny', 'the', 'this']
>>> t.toarray()
array([[ 0. , 0.47107781, 0.47107781, 0.33517574, 0. ,
0. , 0.47107781, 0.47107781],
[ 0.53404633, 0. , 0. , 0.37997836, 0.53404633,
0.53404633, 0. , 0. ]])
Ich kann auf die Matrix zugreifen, indem ich die Zeilennummer gebe,
>>> t[0,1]
0.47107781233161794
Gibt es eine Möglichkeit, über die Dokument-ID auf diese Matrix zuzugreifen? In meinem Fall 'doc1' und 'doc2'.
Vielen Dan