Lesen Sie den Dokumentnamen in der scikit-learn tf-idf Matrix

Ich habe eine tf-idf-Matrix erstellt, möchte aber jetzt die ersten zwei Wörter für jedes Dokument abrufen. Ich möchte die ID des Dokuments übergeben und es sollte mir die ersten beiden Wörter geben.

Right now, ich habe diese Beispieldaten:

from sklearn.feature_extraction.text import TfidfVectorizer

d = {'doc1':"this is the first document",'doc2':"it is a sunny day"} ### corpus

test_v = TfidfVectorizer(min_df=1)    ### applied the model
t = test_v.fit_transform(d.values())
feature_names = test_v.get_feature_names() ### list of words/terms

>>> feature_names
['day', 'document', 'first', 'is', 'it', 'sunny', 'the', 'this']

>>> t.toarray()
array([[ 0.        ,  0.47107781,  0.47107781,  0.33517574,  0.        ,
     0.        ,  0.47107781,  0.47107781],
   [ 0.53404633,  0.        ,  0.        ,  0.37997836,  0.53404633,
     0.53404633,  0.        ,  0.        ]])

Ich kann auf die Matrix zugreifen, indem ich die Zeilennummer gebe,

 >>> t[0,1]
   0.47107781233161794

Gibt es eine Möglichkeit, über die Dokument-ID auf diese Matrix zuzugreifen? In meinem Fall 'doc1' und 'doc2'.

Vielen Dan

Antworten auf die Frage(1)

Ihre Antwort auf die Frage