Cosine similitud vs distancia de Hamming [cerrado]

Question

Jun 03, 2009, 06:29 PM

Cosine similitud vs distancia de Hamming [cerrado]

Para calcular la similitud entre dos documentos, creo un vector de características que contiene las frecuencias del término. Pero luego, para el siguiente paso, no puedo decidir entre "Cosine similarity "y" Distancia de Hamming ".

Mi pregunta: ¿Tienes experiencia con estos algoritmos? ¿Cuál te da mejores resultados?

Además de eso: ¿Podría decirme cómo codificar la similitud de Coseno en PHP? Para la distancia de Hamming, ya tengo el código:

function check ($terms1, $terms2) {
    $counts1 = array_count_values($terms1);
    $totalScore = 0;
    foreach ($terms2 as $term) {
        if (isset($counts1[$term])) $totalScore += $counts1[$term];
    }
    return $totalScore * 500 / (count($terms1) * count($terms2));
}

No quiero usar ningún otro algoritmo. Solo me gustaría tener ayuda para decidir entre ambos.

Y tal vez alguien pueda decir algo sobre cómo mejorar los algoritmos. ¿Obtendrá mejores resultados si filtra las palabras de detención o las palabras comunes?

Espero que puedas ayudarme. ¡Gracias por adelantado