LSA - Análise Semântica Latente - Como codificá-lo em PHP?

Eu gostaria de implementar a Análise Semântica Latente (LSA) em PHP para descobrir tópicos / tags para textos.

Aqui está o que acho que tenho que fazer.Isso está correto? Como posso codificá-lo em PHP? Como faço para determinar quais palavras escolher?

Eu não quero usar nenhuma biblioteca externa.Eu já tenho uma implementação para a decomposição do valor singular (SVD).

Extraia todas as palavras do texto fornecido.Ponderar as palavras / frases, por ex. comtf-idf. Se a ponderação é muito complexa, basta ter o número de ocorrências.Construir uma matriz: As colunas são alguns documentos do banco de dados (quanto mais, melhor?), As linhas são todas palavras únicas, os valores são o número de ocorrências ou o peso.Faça a decomposição do valor singular (SVD).Use os valores na matriz S (SVD) para fazer a redução da dimensão (como?).

Espero que você possa me ajudar. Muito obrigado antecipadamente!

questionAnswers(4)

yourAnswerToTheQuestion