Muestreo estratificado con pyspark
Tengo una chispaDataFrame
que tiene una columna que tienemuchos ceros y muy pocas (solo el 0.01% de las unidades).
Me gustaría tomar una submuestra aleatoria pero estratificada, para que mantenga la proporción de 1s a 0s en esa columna.
¿Es posible hacer en pyspark?
Estoy buscando unno scala solución y en base aDataFrame
s y noRDD
-establecido.