Resultados de la búsqueda a petición "apache-spark-sql"

Creo que me falta algo, pero no puedo entender qué. Quiero cargar datos usando SQLContext y JDBC usando una declaración sql particular como select top 1000 text from table1 with (nolock) where threadid in ( select distinct id from table2 with ...

apache-spark

1 la respuesta

Aplicar la función a cada fila de Spark DataFrame

Estoy en Spark 1.3. Me gustaría aplicar una función a cada fila de un marco de datos. Esta función agrupa cada columna de la fila y devuelve una lista de los hash. dataframe.map(row => row.toSeq.map(col => col.hashCode))Recibo ...

pyspark python pandas apache-spark

2 la respuesta

Transformación estilo pandas de datos agrupados en PySpark DataFrame

Si tenemos un marco de datos Pandas que consiste en una columna de categorías y una columna de valores, podemos eliminar la media en cada categoría haciendo lo siguiente: df["DemeanedValues"] = df.groupby("Category")["Values"].transform(lambda ...

apache-spark hive

2 la respuesta

Cómo calcular la mediana en spark sqlContext para la columna de tipo de datos double

He dado la tabla de muestra. Quiero obtener la mediana de la columna "valor" para cada columna "fuente" de cada grupo. Donde la columna de origen es de String DataType, la columna de valor es de doble DataType scala> sqlContext.sql("SELECT * ...

scala dataframe user-defined-functions apache-spark

2 la respuesta

¿Cómo convierto una columna WrappedArray en el marco de datos de spark a Strings?

Estoy tratando de convertir una columna que contiene Array [String] a String, pero constantemente aparece este error org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 78.0 failed 4 times, most recent failure: ...

scala apache-spark dataframe

2 la respuesta

¿Cómo aplicar una función a una columna de un Spark DataFrame?

Supongamos que tenemos un Spark DataFrame df.getClass Class[_ <: org.apache.spark.sql.DataFrame] = class org.apache.spark.sql.DataFramecon el siguiente esquema df.printSchema root |-- rawFV: string (nullable = true) |-- tk: array (nullable = ...

pyspark python apache-spark performance

1 la respuesta

¿Por qué mi Spark funciona más lento que Python puro? Comparación de rendimiento

Spark novato aquí. Intenté hacer algunas acciones de pandas en mi marco de datos usando Spark, y sorprendentemente es más lento que Python puro (es decir, usando el paquete de pandas en Python). Esto es lo que hice: 1) En ...

postgresql apache-spark scala dataframe

4 la respuesta

Spark Dataframes UPSERT a la tabla Postgres

Estoy usando Apache Spark DataFrames para unir dos fuentes de datos y obtener el resultado como otro DataFrame. Quiero escribir el resultado en otra tabla de Postgres. Veo esta opción: myDataFrame.write.jdbc(url, table, ...

apache-spark pyspark python

4 la respuesta

Cómo calcular la suma acumulativa usando sqlContext

Sé que podemos usarFunción de ventana en pyspark [https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html] para calcular la suma acumulativa. Pero Window solo se admite en HiveContext y no en SQLContext. Necesito ...

spark-dataframe apache-spark scala

3 la respuesta

Spark 1.6: java.lang.IllegalArgumentException: spark.sql.execution.id ya está configurado

Estoy usando spark 1.6 y me encuentro con el problema anterior cuando ejecuto el siguiente código: // Imports import org.apache.spark.sql.hive.HiveContext import org.apache.spark.{SparkConf, SparkContext} import ...

Página 44 de 52

42 434445 46

Resultados de la búsqueda a petición "apache-spark-sql"

Spark SQL: cargue datos con JDBC utilizando la instrucción SQL, no el nombre de la tabla

Aplicar la función a cada fila de Spark DataFrame

Transformación estilo pandas de datos agrupados en PySpark DataFrame

Etiquetas Populares

Cómo calcular la mediana en spark sqlContext para la columna de tipo de datos double

¿Cómo convierto una columna WrappedArray en el marco de datos de spark a Strings?

¿Cómo aplicar una función a una columna de un Spark DataFrame?

¿Por qué mi Spark funciona más lento que Python puro? Comparación de rendimiento

Spark Dataframes UPSERT a la tabla Postgres

Cómo calcular la suma acumulativa usando sqlContext

Spark 1.6: java.lang.IllegalArgumentException: spark.sql.execution.id ya está configurado

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "apache-spark-sql"

Etiquetas Populares