Jaki jest najszybszy sposób obliczania podobieństwa cosinusów w Pythonie ze względu na rzadkie dane macierzowe?

Question

Jul 13, 2013, 07:18 AM

python cosine-similarity similarity pandas numpy

Jaki jest najszybszy sposób obliczania podobieństwa cosinusów w Pythonie ze względu na rzadkie dane macierzowe?

Biorąc pod uwagę rzadką listę macierzy, jaki jest najlepszy sposób obliczenia podobieństwa cosinus między każdą z kolumn (lub wierszy) w macierzy? Wolałbym nie powtarzać n-select-dwa razy.

Powiedz, że macierz wejściowa to:

Rzadka reprezentacja to:

A = 
0, 1
0, 4
1, 2
1, 3
1, 4
2, 0
2, 1
2, 3

W Pythonie łatwo jest pracować z formatem wejściowym macierzy:

import numpy as np
from sklearn.metrics import pairwise_distances
from scipy.spatial.distance import cosine

A = np.array(
[[0, 1, 0, 0, 1],
[0, 0, 1, 1, 1],
[1, 1, 0, 1, 0]])

dist_out = 1-pairwise_distances(A, metric="cosine")
dist_out

Daje:

array([[ 1.        ,  0.40824829,  0.40824829],
       [ 0.40824829,  1.        ,  0.33333333],
       [ 0.40824829,  0.33333333,  1.        ]])

To jest dobre dla wejścia pełnej macierzy, ale naprawdę chcę zacząć od rzadkiej reprezentacji (ze względu na rozmiar i rzadkość mojej macierzy). Jakieś pomysły na to, jak najlepiej to osiągnąć? Z góry dziękuję.