Resultados de la búsqueda a petición "spark-dataframe"

1 la respuesta

Spark Dataframe - Función de ventana - Retraso y adelanto para salida de inserción y actualización

Necesito realizar la siguiente operación en marcos de datos usando la función de ventana Lag y Lead. Para cada clave, necesito realizar la inserción y actualización a continuación en la salida final Insertar condición: 1. Por defecto, LAYER_NO ...

1 la respuesta

Spark 2.2 Scala DataFrame selecciona del conjunto de cadenas, detectando errores

Soy nuevo en SparkSQL / Scala y estoy luchando con un par de tareas aparentemente simples. Estoy tratando de construir un SQL dinámico a partir de una matriz de cadenas Scala. Estoy tratando de volver a escribir algunas columnas en mi ...

4 la respuesta

¿Cómo convertir RDD [GenericRecord] a dataframe en scala?

Recibo tweets del tema kafka con Avro (serializador y deserializador). Luego creo un consumidor de chispas que extrae tweets en Dstream de RDD [GenericRecord]. Ahora quiero convertir cada rdd en un marco de datos para analizar estos tweets a ...

1 la respuesta

Problemas con la función redonda de Pyspark

Tengo algunos problemas para que funcione la función de redondeo en pyspar, k: tengo el siguiente bloque de código, donde estoy tratando de redondear elnew_bid columna a 2 decimales y cambie el nombre de la columna comobid luego - ...

2 la respuesta

Asignación de json a la clase de caso con Spark (espacios en el nombre del campo)

Estoy tratando de leer un archivo json con la chispaDataset API, el problema es que este json contiene espacios en algunos de los nombres de campo. Esta sería una fila json {"Field Name" : "value"}Mi clase de caso debe ser así case class ...

2 la respuesta

Cómo empujar un marco de datos Spark a Elastic Search (Pyspark)

Principiante ES Pregunta aquí ¿Cuál es el flujo de trabajo o los pasos para llevar un Spark Dataframe a Elastic Search? De la investigación, creo que necesito usar elspark.newAPIHadoopFile ...

2 la respuesta

Cómo cambiar el nombre del archivo de salida del marco de datos de chispa en AWS en spark SCALA

Estoy guardando mi salida de marco de datos de chispa como archivo csv en scala con particiones. Así es como hago eso enzepelín. val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext.implicits._ import org.apache.spark.{ ...

1 la respuesta

Spark distancia coseno entre filas usando Dataframe

Tengo que calcular una distancia cosenoidal entre cada fila, pero no tengo idea de cómo hacerlo usando Spark API Dataframes con elegancia. La idea es calcular similitudes para cada fila (elementos) y tomar las 10 similitudes ...

2 la respuesta

cómo obtener meses, años de diferencia entre dos fechas en sparksql

Recibo el error: org.apache.spark.sql.analysisexception: cannot resolve 'year'Mis datos de entrada: 1,2012-07-21,2014-04-09Mi código: val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext.implicits._ import ...

2 la respuesta

Spark dataframe: Pivot y Group basado en columnas

Tengo el marco de datos de entrada como se muestra a continuación con ID, aplicación y cliente Marco de datos de entrada +--------------------+-----+---------+ | id|app |customer | +--------------------+-----+---------+ |id1 | fw| WM | |id1 | ...