Resultados de la búsqueda a petición "apache-spark-sql"

3 la respuesta

¿Cómo unir dos DataFrames en Scala y Apache Spark?

Hay dos marcos de datos (Scala, Apache Spark 1.6.1) 1) coincidencias MatchID | Player1 | Player2 -------------------------------- 1 | John Wayne | John Doe 2 | Ive Fish | San Simon2) Datos personales Player | BirthYear ...

2 la respuesta

PySpark: múltiples condiciones en la cláusula when

Me gustaría modificar los valores de celda de una columna de marco de datos (Edad) donde actualmente está en blanco y solo lo haría si otra columna (Sobrevivido) tiene el valor 0 para la fila correspondiente donde está en blanco para Edad. Si es ...

2 la respuesta

Spark Scala: Cómo convertir Dataframe [vector] a DataFrame [f1: Double, ..., fn: Double)]

Acabo de usar Standard Scaler para normalizar mis funciones para una aplicación ML. Después de seleccionar las características escaladas, quiero convertir esto nuevamente en un marco de datos de Dobles, aunque la longitud de mis vectores ...

0 la respuesta

OUTER JOIN en 2 MARCOS DE DATOS: Spark Scala SqlContext

Recibo un error al hacer uniones externas en 2 marcos de datos. Estoy tratando de obtener el percentil. val sqlContext = new org.apache.spark.sql.SQLContext(sc) val df = sqlContext.jsonFile("temp.txt") val res = ...

4 la respuesta

Cambiar el nombre de la columna pivotada y agregada en PySpark Dataframe

Con un marco de datos de la siguiente manera: from pyspark.sql.functions import avg, first rdd = sc.parallelize( [ (0, "A", 223,"201603", "PORT"), (0, "A", 22,"201602", "PORT"), (0, "A", 422,"201601", "DOCK"), (1,"B", 3213,"201602", "DOCK"), ...

2 la respuesta

¿Cuál es una forma optimizada de unir tablas grandes en Spark SQL?

Necesito unir tablas usando Spark SQL o Dataframe API. Necesito saber cuál sería la forma optimizada de lograrlo. El escenario es: Todos los datos están presentes en Hive en formato ORC (marco de datos base y archivos de referencia).Necesito ...

4 la respuesta

Convertir cadena de pyspark a formato de fecha

Tengo un marco de datos de pyspark de fecha con una columna de cadena en el formato deMM-dd-yyyy y estoy intentando convertir esto en una columna de fecha. Lo intenté: df.select(to_date(df.STRING_COLUMN).alias('new_date')).show() y obtengo una ...

1 la respuesta

Scala: primer cuartil, tercer cuartil e IQR del marco de datos SQLContext sin Hive

Tengo un marco de datos: data.show() +--------+------+------------------+ | Count| mean| stdev| +--------+------+------------------+ | 5| 6337| 1684.569470220803| | 3| 7224| 567.8250904401182| | 330| 20280|23954.260831863092| | 42| ...

1 la respuesta

¿Cómo ejecutar transformaciones independientes en paralelo usando PySpark?

Estoy tratando de ejecutar 2 funciones haciendo transformaciones completamente independientes en un único RDD en paralelo usando PySpark. ¿Cuáles son algunos métodos para hacer lo mismo? def doXTransforms(sampleRDD): (X transforms) def ...

1 la respuesta

Columna de cadena dinámica en Pyspark Dataframe

Tengo un marco de datos simple como este: rdd = sc.parallelize( [ (0, "A", 223,"201603", "PORT"), (0, "A", 22,"201602", "PORT"), (0, "A", 422,"201601", "DOCK"), (1,"B", 3213,"201602", "DOCK"), (1,"B", 3213,"201601", "PORT"), (2,"C", ...