Cálculo do ganho de informações com o Scikit-learn

Question

Oct 15, 2017, 09:17 AM

machine-learning text-classification scikit-learn python feature-selection

Cálculo do ganho de informações com o Scikit-learn

Estou usando o Scikit-learn para classificação de texto. Quero calcular o ganho de informações para cada atributo em relação a uma classe em uma matriz de termo de documento (esparsa). O ganho de informação é definido como H (Classe) - H (Classe | Atributo), onde H é a entropia.

Usando weka, isso pode ser feito com oInfoGainAttribute. Mas não encontrei essa medida no scikit-learn.

No entanto, tem sidosugerido que a fórmula acima para ganho de informações é a mesma medida que informações mútuas. Isso também corresponde à definição emwikipedia.

É possível usar uma configuração específica para informações mútuas no scikit-learn para realizar esta tarefa?