Cálculo do ganho de informações com o Scikit-learn
Estou usando o Scikit-learn para classificação de texto. Quero calcular o ganho de informações para cada atributo em relação a uma classe em uma matriz de termo de documento (esparsa). O ganho de informação é definido como H (Classe) - H (Classe | Atributo), onde H é a entropia.
Usando weka, isso pode ser feito com oInfoGainAttribute. Mas não encontrei essa medida no scikit-learn.
No entanto, tem sidosugerido que a fórmula acima para ganho de informações é a mesma medida que informações mútuas. Isso também corresponde à definição emwikipedia.
É possível usar uma configuração específica para informações mútuas no scikit-learn para realizar esta tarefa?