Resultados de la búsqueda a petición "apache-spark-sql"

1 la respuesta

Muestreo estratificado con pyspark

Tengo una chispaDataFrame que tiene una columna que tienemuchos cerosy muy pocas (solo el 0.01% de las unidades). Me gustaría tomar una submuestra aleatoria pero estratificada, para que mantenga la proporción de 1s a 0s en esa columna. ¿Es ...

1 la respuesta

Spark Dataframe - Función de ventana - Retraso y adelanto para salida de inserción y actualización

Necesito realizar la siguiente operación en marcos de datos usando la función de ventana Lag y Lead. Para cada clave, necesito realizar la inserción y actualización a continuación en la salida final Insertar condición: 1. Por defecto, LAYER_NO ...

1 la respuesta

Cómo agregar una columna anidada a un DataFrame

Tengo un marco de datosdf con el siguiente esquema: root |-- city_name: string (nullable = true) |-- person: struct (nullable = true) | |-- age: long (nullable = true) | |-- name: string (nullable = true)Lo que quiero hacer es agregar una ...

1 la respuesta

Convierte entre Streaming Dataset y DStream

¿Es posible convertir una transmisión?o.a.s.sql.Dataset aDStream? ¿Si es así, cómo? Sé cómo convertirlo a RDD, pero está en un contexto de transmisión.

2 la respuesta

¿Por qué la aplicación de chispa falla con "executeor.CoarseGrainedExecutorBackend: Driver Disassociated"?

Cuando ejecuto query sql a través de spark-submit y spark-sql, la aplicación de spark correspondiente siempre falla con el siguiente error: 15/03/10 18:50:52 INFO util.AkkaUtils: Connecting to ...

4 la respuesta

Actualización de una columna de marco de datos en chispa

Mirando la nueva API de marco de datos de chispa, no está claro si es posible modificar las columnas del marco de datos. ¿Cómo haría para cambiar un valor en fila?x columnay de un marco de datos? Enpandas esto seríadf.ix[x,y] = ...

16 la respuesta

¿Cómo cambiar los tipos de columna en el DataFrame de Spark SQL?

Supongamos que estoy haciendo algo como: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: ...

10 la respuesta

Cómo convertir objetos rdd a dataframe en spark

¿Cómo puedo convertir un RDD (org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) a un marco de datosorg.apache.spark.sql.DataFrame. Convertí un marco de datos a rdd usando.rdd. Después de procesarlo, lo quiero de vuelta en el marco de ...

1 la respuesta

Cómo usar el valor constante en UDF de Spark SQL (DataFrame)

Tengo un marco de datos que incluyetimestamp. Para agregar por tiempo (minuto, hora o día), he intentado como: val toSegment = udf((timestamp: String) => { val asLong = timestamp.toLong asLong - asLong % 3600000 // period = 1 hour }) val df: ...

6 la respuesta

Cómo eliminar columnas en el marco de datos pyspark

>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint, julian_date: string, user_id: ...