Resultados de la búsqueda a petición "pyspark"

1 la respuesta

¿Cómo construir una matriz dispersa en PySpark?

Soy nuevo en Spark. Me gustaría hacer una matriz dispersa una matriz de ID de elemento de ID de usuario específicamente para un motor de recomendación. Sé cómo haría esto en Python. ¿Cómo se hace esto en PySpark? Así es como lo habría hecho en ...

1 la respuesta

Obtenga el valor máximo para cada clave en un Spark RDD

¿Cuál es la mejor manera de devolver la fila máxima (valor) asociada con cada clave única en una chispa RDD? Estoy usando python y probé Math max, mapeo y reducción por claves y agregados. ¿Hay una manera eficiente de hacer esto? Posiblemente un ...

6 la respuesta

Concatenar dos marcos de datos PySpark

Estoy tratando de concatenar dos marcos de datos PySpark con algunas columnas que solo están en cada uno de ellos: from pyspark.sql.functions import randn, rand df_1 = sqlContext.range(0, 10) +--+ |id| +--+ | 0| | 1| | 2| | 3| | 4| | 5| | 6| | ...

1 la respuesta

Extraiga la fecha de una columna de cadena que contiene la marca de tiempo en Pyspark

Tengo un marco de datos que tiene una fecha en el siguiente formato: +----------------------+ |date | +----------------------+ |May 6, 2016 5:59:34 AM| +----------------------+Tengo la intención de extraer la fecha de esto en ...

4 la respuesta

Cambiar el nombre de la columna pivotada y agregada en PySpark Dataframe

Con un marco de datos de la siguiente manera: from pyspark.sql.functions import avg, first rdd = sc.parallelize( [ (0, "A", 223,"201603", "PORT"), (0, "A", 22,"201602", "PORT"), (0, "A", 422,"201601", "DOCK"), (1,"B", 3213,"201602", "DOCK"), ...

2 la respuesta

¿Cómo puedo declarar una columna como una característica categórica en un DataFrame para usar en ml

¿Cómo puedo declarar que una columna dada en miDataFrame contiene información categórica? Tengo un Spark SQLDataFrame que cargué de una base de datos. Muchas de las columnas en esteDataFrame tienen información categórica, pero están ...

4 la respuesta

Convertir cadena de pyspark a formato de fecha

Tengo un marco de datos de pyspark de fecha con una columna de cadena en el formato deMM-dd-yyyy y estoy intentando convertir esto en una columna de fecha. Lo intenté: df.select(to_date(df.STRING_COLUMN).alias('new_date')).show() y obtengo una ...

2 la respuesta

¿Cómo ejecutar una función en todos los trabajadores de Spark antes de procesar datos en PySpark?

Estoy ejecutando una tarea de Spark Streaming en un clúster usando YARN. Cada nodo en el clúster ejecuta múltiples trabajadores de chispa. Antes de que comience la transmisión, quiero ejecutar una función de "configuración" en todos los ...

1 la respuesta

¿Cómo ejecutar transformaciones independientes en paralelo usando PySpark?

Estoy tratando de ejecutar 2 funciones haciendo transformaciones completamente independientes en un único RDD en paralelo usando PySpark. ¿Cuáles son algunos métodos para hacer lo mismo? def doXTransforms(sampleRDD): (X transforms) def ...

1 la respuesta

Columna de cadena dinámica en Pyspark Dataframe

Tengo un marco de datos simple como este: rdd = sc.parallelize( [ (0, "A", 223,"201603", "PORT"), (0, "A", 22,"201602", "PORT"), (0, "A", 422,"201601", "DOCK"), (1,"B", 3213,"201602", "DOCK"), (1,"B", 3213,"201601", "PORT"), (2,"C", ...