LSA - Análisis semántico latente - ¿Cómo codificarlo en PHP?

Me gustaría implementar el Análisis semántico latente (LSA) en PHP para encontrar temas / etiquetas para textos.

Esto es lo que creo que tengo que hacer.¿Es esto correcto? ¿Cómo puedo codificarlo en PHP? ¿Cómo puedo determinar qué palabras elegir?

No quiero usar ninguna librería externa.Ya tengo una implementación para la Descomposición de Valor Singular (SVD).

Extrae todas las palabras del texto dado.Ponle peso a las palabras / frases, por ej. contf – idf. Si la ponderación es demasiado compleja, simplemente tome el número de ocurrencias.Construir una matriz: las columnas son algunos documentos de la base de datos (¿cuanto más mejor?), Las filas son palabras únicas, los valores son el número de ocurrencias o el peso.Hacer la descomposición del valor singular (SVD).Use los valores en la matriz S (SVD) para hacer la reducción de dimensión (¿cómo?).

Espero que puedas ayudarme. ¡Muchas gracias por adelantado!

Respuestas a la pregunta(4)

Su respuesta a la pregunta