Resultados de la búsqueda a petición "apache-spark-sql"

1 la respuesta

Spark combina columnas como matriz anidada

¿Cómo puedo combinar columnas en spark como una matriz anidada? val inputSmall = Seq( ("A", 0.3, "B", 0.25), ("A", 0.3, "g", 0.4), ("d", 0.0, "f", 0.1), ("d", 0.0, "d", 0.7), ("A", 0.3, "d", 0.7), ("d", 0.0, "g", 0.4), ("c", 0.2, "B", ...

1 la respuesta

Spark DataFrame Schema Nullable Fields

Escribí el siguiente código tanto en Scala como en Python, sin embargo, el DataFrame que se devuelve no parece aplicar los campos no anulables en mi esquema que estoy aplicando.italianVotes.csv es un archivo csv con '~' como separador y cuatro ...

3 la respuesta

Unirse a los marcos de datos de Spark en la clave

He construido dos marcos de datos. ¿Cómo podemos unir múltiples marcos de datos de Spark? Por ejemplo : PersonDf, ProfileDf con una columna común comopersonId como (clave). Ahora, ¿cómo podemos tener una combinación de Dataframe?PersonDf ...

2 la respuesta

¿Puedo leer varios archivos en un Spark Dataframe desde S3, pasando por encima de los inexistentes?

Me gustaría leer varios archivos de parquet en un marco de datos de S3. Actualmente, estoy usando el siguiente método para hacer esto: files = ['s3a://dev/2017/01/03/data.parquet', 's3a://dev/2017/01/02/data.parquet'] df = ...

1 la respuesta

Cómo agregar en una ventana de tiempo variable con grupos en Spark

Tengo algunos datos que quiero agrupar por una determinada columna, luego agrego una serie de campos basados en una ventana de tiempo variable del grupo. Aquí hay algunos datos de ejemplo: df = spark.createDataFrame([Row(date='2016-01-01', ...

1 la respuesta

Generación de código de etapa completa en Spark 2.0

Escuché sobreWhole-Stage Code Generation para sql para optimizar consultas. mediantep539-neumann.pdf [http://www.vldb.org/pvldb/vol4/p539-neumann.pdf] & ...

1 la respuesta

Cómo hacer operaciones matemáticas con dos columnas en el marco de datos usando pyspark

Tengo un marco de datos con tres columnas "x", "y" y "z" x y z bn 12452 221 mb 14521 330 pl 12563 160 lo 22516 142Necesito crear otra columna derivada de esta fórmula. (m = z / y+z)Entonces, los nuevos marcos de datos deberían verse así: x y z ...

5 la respuesta

Cómo encontrar la mediana exacta para datos agrupados en Spark

Tengo un requisito para calcular la mediana exacta en el conjunto de datos agrupados del tipo de datos Doble en Spark usando Scala. Es diferente de la consulta similar:Encuentre la mediana en spark SQL para múltiples columnas de doble tipo de ...

1 la respuesta

¿Cómo usar DataFrame.explode con un UDF personalizado para dividir una cadena en subcadenas?

Yo uso Spark1,5. Tengo un DataFrameA_DF como sigue: +--------------------+--------------------+ | id| interactions| +--------------------+--------------------+ | id1 |30439831,30447866...| | id2 |37597858,34499875...| | id3 ...

1 la respuesta

¿Cómo encontrar la media de las columnas vectoriales agrupadas en Spark SQL?

He creado unRelationalGroupedDataset llamandoinstances.groupBy(instances.col("property_name")): val x = instances.groupBy(instances.col("property_name"))¿Cómo compongo unfunción agregada definida por el ...