Resultados de la búsqueda a petición "apache-spark-sql"

Sé cómo escribir un UDF en Spark SQL: def belowThreshold(power: Int): Boolean = { return power < -40 } sqlContext.udf.register("belowThreshold", belowThreshold _)¿Puedo hacer algo similar para definir una función agregada? ¿Cómo se hace ...

spark-streaming apache-spark

2 la respuesta

Suelte el marco de datos de chispa del caché

Estoy usando Spark 1.3.0 con python api. Al transformar grandes marcos de datos, guardo en caché muchos DF para una ejecución más rápida; df1.cache() df2.cache()Una vez que el uso de cierto marco de datos ha terminado y ya no es necesario, ¿cómo ...

scala parallel-processing apache-spark

1 la respuesta

¿Cómo leer y escribir varias tablas en paralelo en Spark?

En mi aplicación Spark, estoy tratando de leer varias tablas de RDBMS, haciendo un procesamiento de datos, luego escribo varias tablas en otro RDBMS de la siguiente manera (en Scala): val reading1 = sqlContext.load("jdbc", Map("url" -> myurl1, ...

pyspark apache-spark dataframe python

4 la respuesta

cómo cambiar una columna de marco de datos de tipo de cadena a tipo doble en pyspark

Tengo un marco de datos con una columna como String. Quería cambiar el tipo de columna a Tipo doble en PySpark. El siguiente es el camino que hice: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf ...

apache-spark scala user-defined-functions nullable

3 la respuesta

SparkSQL: ¿Cómo lidiar con valores nulos en la función definida por el usuario?

Dada la Tabla 1 con una columna "x" de tipo String. Quiero crear la Tabla 2 con una columna "y" que es una representación entera de las cadenas de fecha dadas en "x". Esenciales mantenernull valores en la columna "y". Tabla 1 (Dataframe ...

apache-spark

4 la respuesta

¿Cuál debería ser el valor óptimo para spark.sql.shuffle.partitions o cómo aumentamos las particiones al usar Spark SQL?

Hola, estoy usando Spark SQL en realidadhiveContext.sql() que usa group by queries y me encuentro conOOM cuestiones. Entonces pensando en aumentar el valor despark.sql.shuffle.partitions de 200 por defecto a 1000 pero no está ayudando. Por favor, ...

scala apache-spark apache-zeppelin

3 la respuesta

Eliminar tablas temporales de Apache SQL Spark

yo tengoregistertemptable enApache Spark utilizandoZeppelin abajo: val hvacText = sc.textFile("...") case class Hvac(date: String, time: String, targettemp: Integer, actualtemp: Integer, buildingID: String) val hvac = hvacText.map(s => ...

sql scala apache-spark

3 la respuesta

La diferencia entre countDistinct y distinct.count

¿Por qué obtengo diferentes salidas para..agg(countDistinct("member_id") as "count") y..distinct.count? ¿Es la diferencia la misma que entreselect count(distinct member_id) yselect distinct count(member_id)?

apache-spark scala case-class

1 la respuesta

¿Cómo definir el esquema para el tipo personalizado en Spark SQL?

El siguiente código de ejemplo intenta colocar algunos objetos de caso en un marco de datos. El código incluye la definición de una jerarquía de objetos de caso y una clase de caso que utiliza este rasgo: import org.apache.spark.{SparkContext, ...

scala apache-spark window-functions

3 la respuesta

Spark y SparkSQL: ¿Cómo imitar la función de ventana?

DescripciónDado un marco de datosdf id | date --------------- 1 | 2015-09-01 2 | 2015-09-01 1 | 2015-09-03 1 | 2015-09-04 2 | 2015-09-04Quiero crear un contador o índice en ejecución, agrupados por la misma identificación yordenado por fecha en ...

Página 36 de 52

34 353637 38

Resultados de la búsqueda a petición "apache-spark-sql"

¿Cómo definir y usar una función agregada definida por el usuario en Spark SQL?

Suelte el marco de datos de chispa del caché

¿Cómo leer y escribir varias tablas en paralelo en Spark?

Etiquetas Populares

cómo cambiar una columna de marco de datos de tipo de cadena a tipo doble en pyspark

SparkSQL: ¿Cómo lidiar con valores nulos en la función definida por el usuario?

¿Cuál debería ser el valor óptimo para spark.sql.shuffle.partitions o cómo aumentamos las particiones al usar Spark SQL?

Eliminar tablas temporales de Apache SQL Spark

La diferencia entre countDistinct y distinct.count

¿Cómo definir el esquema para el tipo personalizado en Spark SQL?

Spark y SparkSQL: ¿Cómo imitar la función de ventana?

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "apache-spark-sql"

Etiquetas Populares