Resultados de la búsqueda a petición "apache-spark-sql"
Spark SQL: cargue datos con JDBC utilizando la instrucción SQL, no el nombre de la tabla
Creo que me falta algo, pero no puedo entender qué. Quiero cargar datos usando SQLContext y JDBC usando una declaración sql particular como select top 1000 text from table1 with (nolock) where threadid in ( select distinct id from table2 with ...
Aplicar la función a cada fila de Spark DataFrame
Estoy en Spark 1.3. Me gustaría aplicar una función a cada fila de un marco de datos. Esta función agrupa cada columna de la fila y devuelve una lista de los hash. dataframe.map(row => row.toSeq.map(col => col.hashCode))Recibo ...
Transformación estilo pandas de datos agrupados en PySpark DataFrame
Si tenemos un marco de datos Pandas que consiste en una columna de categorías y una columna de valores, podemos eliminar la media en cada categoría haciendo lo siguiente: df["DemeanedValues"] = df.groupby("Category")["Values"].transform(lambda ...
Cómo calcular la mediana en spark sqlContext para la columna de tipo de datos double
He dado la tabla de muestra. Quiero obtener la mediana de la columna "valor" para cada columna "fuente" de cada grupo. Donde la columna de origen es de String DataType, la columna de valor es de doble DataType scala> sqlContext.sql("SELECT * ...
¿Cómo convierto una columna WrappedArray en el marco de datos de spark a Strings?
Estoy tratando de convertir una columna que contiene Array [String] a String, pero constantemente aparece este error org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 78.0 failed 4 times, most recent failure: ...
¿Cómo aplicar una función a una columna de un Spark DataFrame?
Supongamos que tenemos un Spark DataFrame df.getClass Class[_ <: org.apache.spark.sql.DataFrame] = class org.apache.spark.sql.DataFramecon el siguiente esquema df.printSchema root |-- rawFV: string (nullable = true) |-- tk: array (nullable = ...
¿Por qué mi Spark funciona más lento que Python puro? Comparación de rendimiento
Spark novato aquí. Intenté hacer algunas acciones de pandas en mi marco de datos usando Spark, y sorprendentemente es más lento que Python puro (es decir, usando el paquete de pandas en Python). Esto es lo que hice: 1) En ...
Spark Dataframes UPSERT a la tabla Postgres
Estoy usando Apache Spark DataFrames para unir dos fuentes de datos y obtener el resultado como otro DataFrame. Quiero escribir el resultado en otra tabla de Postgres. Veo esta opción: myDataFrame.write.jdbc(url, table, ...
Cómo calcular la suma acumulativa usando sqlContext
Sé que podemos usarFunción de ventana en pyspark [https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html] para calcular la suma acumulativa. Pero Window solo se admite en HiveContext y no en SQLContext. Necesito ...
Spark 1.6: java.lang.IllegalArgumentException: spark.sql.execution.id ya está configurado
Estoy usando spark 1.6 y me encuentro con el problema anterior cuando ejecuto el siguiente código: // Imports import org.apache.spark.sql.hive.HiveContext import org.apache.spark.{SparkConf, SparkContext} import ...