Resultados de la búsqueda a petición "apache-spark-sql"
Agregue una nueva columna a un marco de datos. Nueva columna quiero que sea un generador de UUID
Quiero agregar una nueva columna a un Dataframe, un generador de UUID. El valor de UUID se verá algo así21534cf7-cff9-482a-a3a8-9e7244240da7 Mi investigación: He intentado conwithColumn método en chispa. val DF2 = DF1.withColumn("newcolname", ...
La mejor manera de obtener el valor máximo en una columna de marco de datos de Spark
Estoy tratando de encontrar la mejor manera de obtener el mayor valor en una columna de marco de datos de Spark. Considere el siguiente ejemplo: df = spark.createDataFrame([(1., 4.), (2., 5.), (3., 6.)], ["A", "B"]) df.show() Lo que ...
¿Cómo guardar un DataFrame de chispa como csv en el disco?
Por ejemplo, el resultado de esto: df.filter("project = 'en'").select("title","count").groupBy("title").sum() devolvería una matriz. ¿Cómo guardar un DataFrame de chispa como un archivo csv en el disco?
Anteponer ceros a un valor en PySpark
Tengo un marco de datosdf : val1 val2 val3 271 70 151 213 1 379 213 3 90 213 6 288 20 55 165Quiero transformar este marco de datos como: val1 val2 val3 271 70 0151 213 01 0379 213 03 0090 213 06 0288 020 55 0165¿Cómo puedo hacer eso en pyspark? ...
Apache Spark, agregue una columna calculada "CASO CUANDO ... OTRO ..." a un DataFrame existente
Estoy tratando de agregar una columna calculada "CASO CUANDO ... ELSE ..." a un DataFrame existente, usando las API de Scala. Marco de datos inicial: color Red Green BlueMarco de datos deseado (sintaxis SQL: CASO CUANDO color == Verde ENTONCES 1 ...
PySpark: tome el promedio de una columna después de usar la función de filtro
Estoy usando el siguiente código para obtener la edad promedio de las personas cuyo salario es mayor que algún umbral. dataframe.filter(df['salary'] > 100000).agg({"avg": "age"})la edad de la columna es numérica (flotante) pero todavía recibo ...
Las tablas de la colmena no se encuentran cuando se ejecuta en modo YARN-Cluster
Tengo una aplicación Spark (versión 1.4.1) en HDP 2.3. Funciona bien cuando se ejecuta en modo YARN-Client. Sin embargo, cuando se ejecuta en modo YARN-Cluster, la aplicación no puede encontrar ninguna de mis tablas de Hive. Presento la ...
¿Cómo pivotar DataFrame?
Estoy empezando a usar Spark DataFrames y necesito poder pivotar los datos para crear múltiples columnas de 1 columna con múltiples filas. Existe una funcionalidad integrada para eso en Scalding y creo en Pandas en Python, pero no puedo encontrar ...
El valor de la configuración "spark.yarn.executor.memoryOverhead"?
El valor despark.yarn.executor.memoryOverhead en un trabajo de Spark con YARN debe asignarse a la aplicación o solo al valor máximo?
¿Qué es eficiente, Dataframe o RDD o hiveql?
Soy novato en Apache Spark. Mi trabajo es leer dos archivos CSV, seleccionar algunas columnas específicas de él, fusionarlo, agregarlo y escribir el resultado en un solo archivo CSV. Por ejemplo, CSV1name,age,deparment_id ...