Subamostragem balanceada Scikit-learn
Estou tentando criar N subamostras aleatórias balanceadas do meu grande conjunto de dados desequilibrado. Existe uma maneira de fazer isso simplesmente com o scikit-learn / pandas ou eu mesmo tenho que implementá-lo? Algum ponteiro para o código que faz isso?
Essas subamostras devem ser aleatórias e podem se sobrepor à medida que eu alimento cada um para separar o classificador em um conjunto muito grande de classificadores.
No Weka existe uma ferramenta chamada spreadsubsample, existe um equivalente no sklearn?http://wiki.pentaho.com/display/DATAMINING/SpreadSubsample
(Eu sei sobre ponderação, mas não é isso que estou procurando.)