Также обязательно сделайте этот анализ перед применением масштабирования и нормализации.

ользую Scikit-Learn для классификации текста. Я хочу рассчитать информационное усиление для каждого атрибута относительно класса в (разреженной) матрице термина документа. Информационное усиление определяется как H (Класс) - H (Класс | Атрибут), где H - энтропия.

Используя weka, это можно сделать с помощьюInfoGainAttribute, Но я не нашел эту меру в научном курсе.

Тем не менее, это былопредложенный что приведенная выше формула для получения информации является той же мерой, что и взаимная информация. Это соответствует также определению ввикипедия.

Можно ли использовать конкретную настройку для взаимной информации в scikit-learn для выполнения этой задачи?

Ответы на вопрос(1)

Ваш ответ на вопрос