Muestreo estratificado con pyspark

Question

Dec 04, 2017, 05:27 PM

Tengo una chispaDataFrame que tiene una columna que tienemuchos ceros y muy pocas (solo el 0.01% de las unidades).

Me gustaría tomar una submuestra aleatoria pero estratificada, para que mantenga la proporción de 1s a 0s en esa columna.

¿Es posible hacer en pyspark?

Estoy buscando unno scala solución y en base aDataFrames y noRDD-establecido.

Respuestas a la pregunta(1)

Calcule el error usando una función sigmoide en la propagación hacia atrás

¿Hay alguna definición completa de la sintaxis de script de la aplicación de Google en algún lugar?

¿El operador + = es seguro para subprocesos en Python?

¿Cómo hacer que el envío de formularios sea sincrónico?

Incrustar App Store en mi aplicación