СПАРК М.Л., Наивный байесовский классификатор: прогноз высокой вероятности для одного класса

Я использую Spark ML для оптимизации Naive Ba, да, мультиклассового классификатора.

У меня есть около 300 категорий, и я классифицирую текстовые документы. Тренировочный набор достаточно сбалансирован и в каждой категории около 300 тренировочных примеров.

Все выглядит хорошо, и классификатор работает с приемлемой точностью на невидимых документах. Но что я заметил, что при классификации нового документа очень часто классификатор назначает высокую вероятность одной из категорий (вероятность прогнозирования почти равна 1), в то время как другие категории получают очень низкие вероятности (близкие к нулю) ,

Каковы возможные причины этого?

Я хотел бы добавить, что в SPARK ML есть нечто, называемое «грубое предсказание», и когда я смотрю на него, я вижу отрицательные числа, но они имеют более или менее сопоставимую величину, поэтому даже категория с высокой вероятностью имеет сопоставимое необработанное предсказание. оценка, но я нахожу трудности в интерпретации этой оценки.

Ответы на вопрос(1)

Ваш ответ на вопрос