Muestreo estratificado con pyspark

Tengo una chispaDataFrame que tiene una columna que tienemuchos ceros y muy pocas (solo el 0.01% de las unidades).

Me gustaría tomar una submuestra aleatoria pero estratificada, para que mantenga la proporción de 1s a 0s en esa columna.

¿Es posible hacer en pyspark?

Estoy buscando unno scala solución y en base aDataFrames y noRDD-establecido.

Respuestas a la pregunta(1)

Su respuesta a la pregunta