SPARK ML, clasificador Naive Bayes: predicción de alta probabilidad para una clase

Question

Dec 16, 2015, 04:21 PM

apache-spark machine-learning naivebayes apache-spark-ml classification

SPARK ML, clasificador Naive Bayes: predicción de alta probabilidad para una clase

Estoy usando Spark ML para optimizar un Naive Ba, sí, un clasificador multiclase.

Tengo alrededor de 300 categorías y estoy clasificando documentos de texto. El conjunto de entrenamiento es lo suficientemente equilibrado y hay alrededor de 300 ejemplos de entrenamiento para cada categoría.

Todo se ve bien y el clasificador funciona con precisión aceptable en documentos que no se ven. Pero lo que estoy notando es que al clasificar un nuevo documento, muy a menudo, el clasificador asigna una alta probabilidad a una de las categorías (la probabilidad de predicción es casi igual a 1), mientras que las otras categorías reciben probabilidades muy bajas (cercanas a cero) .

¿Cuáles son las posibles razones para esto?

Me gustaría agregar que en SPARK ML hay algo llamado "predicción cruda" y cuando lo miro, puedo ver números negativos pero tienen una magnitud más o menos comparable, por lo que incluso la categoría con alta probabilidad tiene predicción cruda comparable puntaje, pero encuentro dificultades para interpretar estos puntajes.