Amostragem estratificada com pyspark

Question

Dec 04, 2017, 05:27 PM

Eu tenho uma faíscaDataFrame que tem uma coluna que temmuitos zeros e muito poucos (apenas 0,01%).

Gostaria de fazer uma subamostra aleatória, mas estratificada - para que ela mantenha a proporção de 1s para 0s nessa coluna.

É possível fazer no pyspark?

Estou à procura de umnão scala solução e com base emDataFramese nãoRDD-Sediada.

questionAnswers(1)

Alterar par de chaves para instância ec2

Obter o endereço IP real do cliente no Heroku

Compartilhamento de recursos de origem cruzada com a segurança do Spring

Alterar raiz de uma ramificação no git

Excel VBA construtor e destruidor de objetos