Resultados de la búsqueda a petición "apache-spark-sql"

1 la respuesta

¿Cómo usar las funciones collect_set y collect_list en la agregación en ventana en Spark 1.6?

En Spark 1.6.0 / Scala, ¿hay una oportunidad para obtenercollect_list("colC") ocollect_set("colC").over(Window.partitionBy("colA").orderBy("colB")?

2 la respuesta

¿Cómo crear el proyecto Spark / Scala en IntelliJ IDEA (no puede resolver las dependencias en build.sbt)?

Estoy tratando de construir y ejecutar un proyecto Scala / Spark en IntelliJ IDEA. Yo he añadidoorg.apache.spark:spark-sql_2.11:2.0.0 en bibliotecas globales y mibuild.sbt se ve a continuación. name := "test" version := "1.0" scalaVersion := ...

1 la respuesta

Spark filter DataFrame comparando la lista

Estoy usando Python en Spark. Quiero filtrar filas donde un campo específico es igual a una lista completa. df.show() +--------------------+---------------+ | _id| a1| +--------------------+---------------+ |[596d799cbc6ec95d...|[1.0, 2.0, ...

1 la respuesta

¿Cómo leer registros en formato JSON de Kafka usando Structured Streaming?

Estoy tratando de usarenfoque de transmisión estructurada [http://spark.apache.org/docs/latest/structured-streaming-programming-guide.html] usando Spark-Streaming basado en DataFrame / Dataset API para cargar un flujo de datos desde Kafka. Yo ...

2 la respuesta

crear un marco de datos de chispa a partir de un archivo json anidado en scala [duplicado]

Esta pregunta ya tiene una respuesta aquí: ¿Cómo acceder a las subentidades en el archivo JSON? [/questions/44814926/how-to-access-sub-entities-in-json-file] 1 respuestaTengo un archivo json que se ve así { "group" : {}, "lang" : [ [ 1, ...

1 la respuesta

¿Marco de datos de pandas a marco de datos de Spark, manejando conversiones de NaN a nulo real?

Quiero convertir el marco de datos de pandas a chispa y estoy usandospark_context.createDataFrame() Método para crear el marco de datos. También estoy especificando el esquema en elcreateDataFrame() método. Lo que quiero saber es cómo manejar ...

3 la respuesta

¿Cómo maximizar el valor y mantener todas las columnas (para registros máximos por grupo)? [duplicar]

Esta pregunta ya tiene una respuesta aquí: ¿Cómo seleccionar la primera fila de cada grupo? [/questions/33878370/how-to-select-the-first-row-of-each-group] 8 respuestasDado el siguiente DataFrame: +----+-----+---+-----+ | uid| k| v|count| ...

2 la respuesta

cómo obtener meses, años de diferencia entre dos fechas en sparksql

Recibo el error: org.apache.spark.sql.analysisexception: cannot resolve 'year'Mis datos de entrada: 1,2012-07-21,2014-04-09Mi código: val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext.implicits._ import ...

1 la respuesta

Spark - ¿Ventana con recursividad? - Propagación condicional de valores entre filas

Tengo el siguiente marco de datos que muestra los ingresos de las compras. +-------+--------+-------+ |user_id|visit_id|revenue| +-------+--------+-------+ | 1| 1| 0| | 1| 2| 0| | 1| 3| 0| | 1| 4| 100| | 1| 5| 0| | 1| 6| 0| | 1| 7| 200| | 1| 8| ...

2 la respuesta

Cómo usar COGROUP para grandes conjuntos de datos

tengo dosrdd's a saberval tab_a: RDD[(String, String)] yval tab_b: RDD[(String, String)] Estoy usandocogroup para esos conjuntos de datos como: val tab_c = tab_a.cogroup(tab_b).collect.toArray val updated = tab_c.map { x => { //somecode } }Estoy ...