Amostragem estratificada com pyspark
Eu tenho uma faíscaDataFrame
que tem uma coluna que temmuitos zeros e muito poucos (apenas 0,01%).
Gostaria de fazer uma subamostra aleatória, mas estratificada - para que ela mantenha a proporção de 1s para 0s nessa coluna.
É possível fazer no pyspark?
Estou à procura de umnão scala solução e com base emDataFrame
se nãoRDD
-Sediada.