Amostragem estratificada com pyspark

Eu tenho uma faíscaDataFrame que tem uma coluna que temmuitos zeros e muito poucos (apenas 0,01%).

Gostaria de fazer uma subamostra aleatória, mas estratificada - para que ela mantenha a proporção de 1s para 0s nessa coluna.

É possível fazer no pyspark?

Estou à procura de umnão scala solução e com base emDataFramese nãoRDD-Sediada.

questionAnswers(1)

yourAnswerToTheQuestion