emelhança @Cosine vs distância de Hamming [fechada]

Para calcular a semelhança entre dois documentos, crio um vetor de recurso que contém o termo frequências. Mas então, para o próximo passo, não consigo decidir entre "emelhança @Cosine "e"Hamming distance ".

Minha pergunta: você tem experiência com esses algoritmos? Qual deles oferece melhores resultados?

Além disso: Você poderia me dizer como codificar a semelhança de Cosine no PHP? Para distância de Hamming, eu já tenho o código:

function check ($terms1, $terms2) {
    $counts1 = array_count_values($terms1);
    $totalScore = 0;
    foreach ($terms2 as $term) {
        if (isset($counts1[$term])) $totalScore += $counts1[$term];
    }
    return $totalScore * 500 / (count($terms1) * count($terms2));
}

Não quero usar nenhum outro algoritmo. Gostaria apenas de ter ajuda para decidir entre os doi

E talvez alguém possa dizer algo sobre como melhorar os algoritmos. Você obterá melhores resultados se filtrar as palavras de parada ou palavras comuns?

Espero que você possa me ajudar. Desde já, obrigado

questionAnswers(8)

yourAnswerToTheQuestion