Python: tf-idf-cosine: para encontrar la similitud de documentos

Question

Aug 25, 2012, 04:41 AM

nltk python tf-idf information-retrieval machine-learning

Python: tf-idf-cosine: para encontrar la similitud de documentos

Estaba siguiendo un tutorial que estaba disponible enParte 1 & Parte 2. Desafortunadamente, el autor no tuvo tiempo para la sección final, que involucró el uso de la similitud de coseno para encontrar realmente la distancia entre dos documentos. Seguí los ejemplos del artículo con la ayuda del siguiente enlace dedesbordamiento de pila, se incluye el código mencionado en el enlace anterior (solo para hacer la vida más fácil)

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from nltk.corpus import stopwords
import numpy as np
import numpy.linalg as LA

train_set = ["The sky is blue.", "The sun is bright."]  # Documents
test_set = ["The sun in the sky is bright."]  # Query
stopWords = stopwords.words('english')

vectorizer = CountVectorizer(stop_words = stopWords)
#print vectorizer
transformer = TfidfTransformer()
#print transformer

trainVectorizerArray = vectorizer.fit_transform(train_set).toarray()
testVectorizerArray = vectorizer.transform(test_set).toarray()
print 'Fit Vectorizer to train set', trainVectorizerArray
print 'Transform Vectorizer to test set', testVectorizerArray

transformer.fit(trainVectorizerArray)
print
print transformer.transform(trainVectorizerArray).toarray()

transformer.fit(testVectorizerArray)
print 
tfidf = transformer.transform(testVectorizerArray)
print tfidf.todense()

Como resultado del código anterior tengo la siguiente matriz

Fit Vectorizer to train set [[1 0 1 0]
 [0 1 0 1]]
Transform Vectorizer to test set [[0 1 1 1]]

[[ 0.70710678  0.          0.70710678  0.        ]
 [ 0.          0.70710678  0.          0.70710678]]

[[ 0.          0.57735027  0.57735027  0.57735027]]

No estoy seguro de cómo usar esta salida para calcular la similitud de coseno, sé cómo implementar la similitud de coseno con respecto a dos vectores de longitud similar, pero aquí no estoy seguro de cómo identificar los dos vectores.