Subamostragem balanceada Scikit-learn

Question

May 04, 2014, 01:31 PM

Subamostragem balanceada Scikit-learn

Estou tentando criar N subamostras aleatórias balanceadas do meu grande conjunto de dados desequilibrado. Existe uma maneira de fazer isso simplesmente com o scikit-learn / pandas ou eu mesmo tenho que implementá-lo? Algum ponteiro para o código que faz isso?

Essas subamostras devem ser aleatórias e podem se sobrepor à medida que eu alimento cada um para separar o classificador em um conjunto muito grande de classificadores.

No Weka existe uma ferramenta chamada spreadsubsample, existe um equivalente no sklearn?http://wiki.pentaho.com/display/DATAMINING/SpreadSubsample

(Eu sei sobre ponderação, mas não é isso que estou procurando.)