Resultados de la búsqueda a petición "apache-spark-sql"

2 la respuesta

Spark SQL: cargue datos con JDBC utilizando la instrucción SQL, no el nombre de la tabla

Creo que me falta algo, pero no puedo entender qué. Quiero cargar datos usando SQLContext y JDBC usando una declaración sql particular como select top 1000 text from table1 with (nolock) where threadid in ( select distinct id from table2 with ...

1 la respuesta

Aplicar la función a cada fila de Spark DataFrame

Estoy en Spark 1.3. Me gustaría aplicar una función a cada fila de un marco de datos. Esta función agrupa cada columna de la fila y devuelve una lista de los hash. dataframe.map(row => row.toSeq.map(col => col.hashCode))Recibo ...

2 la respuesta

Transformación estilo pandas de datos agrupados en PySpark DataFrame

Si tenemos un marco de datos Pandas que consiste en una columna de categorías y una columna de valores, podemos eliminar la media en cada categoría haciendo lo siguiente: df["DemeanedValues"] = df.groupby("Category")["Values"].transform(lambda ...

2 la respuesta

Cómo calcular la mediana en spark sqlContext para la columna de tipo de datos double

He dado la tabla de muestra. Quiero obtener la mediana de la columna "valor" para cada columna "fuente" de cada grupo. Donde la columna de origen es de String DataType, la columna de valor es de doble DataType scala> sqlContext.sql("SELECT * ...

2 la respuesta

¿Cómo convierto una columna WrappedArray en el marco de datos de spark a Strings?

Estoy tratando de convertir una columna que contiene Array [String] a String, pero constantemente aparece este error org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 78.0 failed 4 times, most recent failure: ...

2 la respuesta

¿Cómo aplicar una función a una columna de un Spark DataFrame?

Supongamos que tenemos un Spark DataFrame df.getClass Class[_ <: org.apache.spark.sql.DataFrame] = class org.apache.spark.sql.DataFramecon el siguiente esquema df.printSchema root |-- rawFV: string (nullable = true) |-- tk: array (nullable = ...

1 la respuesta

¿Por qué mi Spark funciona más lento que Python puro? Comparación de rendimiento

Spark novato aquí. Intenté hacer algunas acciones de pandas en mi marco de datos usando Spark, y sorprendentemente es más lento que Python puro (es decir, usando el paquete de pandas en Python). Esto es lo que hice: 1) En ...

4 la respuesta

Spark Dataframes UPSERT a la tabla Postgres

Estoy usando Apache Spark DataFrames para unir dos fuentes de datos y obtener el resultado como otro DataFrame. Quiero escribir el resultado en otra tabla de Postgres. Veo esta opción: myDataFrame.write.jdbc(url, table, ...

4 la respuesta

Cómo calcular la suma acumulativa usando sqlContext

Sé que podemos usarFunción de ventana en pyspark [https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html] para calcular la suma acumulativa. Pero Window solo se admite en HiveContext y no en SQLContext. Necesito ...

3 la respuesta

Spark 1.6: java.lang.IllegalArgumentException: spark.sql.execution.id ya está configurado

Estoy usando spark 1.6 y me encuentro con el problema anterior cuando ejecuto el siguiente código: // Imports import org.apache.spark.sql.hive.HiveContext import org.apache.spark.{SparkConf, SparkContext} import ...