SPARK ML, Naive Bayes-Klassifikator: Vorhersage mit hoher Wahrscheinlichkeit für eine Klasse

Question

Dec 16, 2015, 04:21 PM

machine-learning classification naivebayes apache-spark apache-spark-ml

SPARK ML, Naive Bayes-Klassifikator: Vorhersage mit hoher Wahrscheinlichkeit für eine Klasse

Ich benutze Spark ML, um einen Naive Ba zu optimieren, ja, einen Klassifikator für mehrere Klassen.

Ich habe ungefähr 300 Kategorien und klassifiziere Textdokumente. Das Trainingsset ist ausgewogen genug und es gibt ungefähr 300 Trainingsbeispiele für jede Kategorie.

All sieht gut aus und der Klassifikator arbeitet mit akzeptabler Präzision an unsichtbaren Dokumenten. Was ich jedoch bemerke, ist, dass der Klassifikator beim Klassifizieren eines neuen Dokuments sehr oft einer der Kategorien eine hohe Wahrscheinlichkeit zuordnet (die Vorhersagewahrscheinlichkeit ist fast gleich 1), während die anderen Kategorien sehr niedrige Wahrscheinlichkeiten erhalten (nahe Null). .

Was sind die möglichen Gründe dafür?

Ich möchte hinzufügen, dass es in SPARK ML etwas gibt, das als "rohe Vorhersage" bezeichnet wird, und wenn ich es mir anschaue, kann ich negative Zahlen sehen, aber sie haben eine mehr oder weniger vergleichbare Größe, sodass selbst die Kategorie mit der hohen Wahrscheinlichkeit eine vergleichbare rohe hat Vorhersagewert, aber ich habe Schwierigkeiten, diesen Wert zu interpretieren.