Resultados de la búsqueda a petición "apache-spark-sql"

2 la respuesta

Agregue una nueva columna a un marco de datos. Nueva columna quiero que sea un generador de UUID

Quiero agregar una nueva columna a un Dataframe, un generador de UUID. El valor de UUID se verá algo así21534cf7-cff9-482a-a3a8-9e7244240da7 Mi investigación: He intentado conwithColumn método en chispa. val DF2 = DF1.withColumn("newcolname", ...

9 la respuesta

La mejor manera de obtener el valor máximo en una columna de marco de datos de Spark

Estoy tratando de encontrar la mejor manera de obtener el mayor valor en una columna de marco de datos de Spark. Considere el siguiente ejemplo: df = spark.createDataFrame([(1., 4.), (2., 5.), (3., 6.)], ["A", "B"]) df.show() Lo que ...

3 la respuesta

¿Cómo guardar un DataFrame de chispa como csv en el disco?

Por ejemplo, el resultado de esto: df.filter("project = 'en'").select("title","count").groupBy("title").sum() devolvería una matriz. ¿Cómo guardar un DataFrame de chispa como un archivo csv en el disco?

1 la respuesta

Anteponer ceros a un valor en PySpark

Tengo un marco de datosdf : val1 val2 val3 271 70 151 213 1 379 213 3 90 213 6 288 20 55 165Quiero transformar este marco de datos como: val1 val2 val3 271 70 0151 213 01 0379 213 03 0090 213 06 0288 020 55 0165¿Cómo puedo hacer eso en pyspark? ...

4 la respuesta

Apache Spark, agregue una columna calculada "CASO CUANDO ... OTRO ..." a un DataFrame existente

Estoy tratando de agregar una columna calculada "CASO CUANDO ... ELSE ..." a un DataFrame existente, usando las API de Scala. Marco de datos inicial: color Red Green BlueMarco de datos deseado (sintaxis SQL: CASO CUANDO color == Verde ENTONCES 1 ...

1 la respuesta

PySpark: tome el promedio de una columna después de usar la función de filtro

Estoy usando el siguiente código para obtener la edad promedio de las personas cuyo salario es mayor que algún umbral. dataframe.filter(df['salary'] > 100000).agg({"avg": "age"})la edad de la columna es numérica (flotante) pero todavía recibo ...

2 la respuesta

Las tablas de la colmena no se encuentran cuando se ejecuta en modo YARN-Cluster

Tengo una aplicación Spark (versión 1.4.1) en HDP 2.3. Funciona bien cuando se ejecuta en modo YARN-Client. Sin embargo, cuando se ejecuta en modo YARN-Cluster, la aplicación no puede encontrar ninguna de mis tablas de Hive. Presento la ...

6 la respuesta

¿Cómo pivotar DataFrame?

Estoy empezando a usar Spark DataFrames y necesito poder pivotar los datos para crear múltiples columnas de 1 columna con múltiples filas. Existe una funcionalidad integrada para eso en Scalding y creo en Pandas en Python, pero no puedo encontrar ...

2 la respuesta

El valor de la configuración "spark.yarn.executor.memoryOverhead"?

El valor despark.yarn.executor.memoryOverhead en un trabajo de Spark con YARN debe asignarse a la aplicación o solo al valor máximo?

3 la respuesta

¿Qué es eficiente, Dataframe o RDD o hiveql?

Soy novato en Apache Spark. Mi trabajo es leer dos archivos CSV, seleccionar algunas columnas específicas de él, fusionarlo, agregarlo y escribir el resultado en un solo archivo CSV. Por ejemplo, CSV1name,age,deparment_id ...