Resultados de la búsqueda a petición "apache-spark-sql"

1 la respuesta

¿Cómo definir y usar una función agregada definida por el usuario en Spark SQL?

Sé cómo escribir un UDF en Spark SQL: def belowThreshold(power: Int): Boolean = { return power < -40 } sqlContext.udf.register("belowThreshold", belowThreshold _)¿Puedo hacer algo similar para definir una función agregada? ¿Cómo se hace ...

2 la respuesta

Suelte el marco de datos de chispa del caché

Estoy usando Spark 1.3.0 con python api. Al transformar grandes marcos de datos, guardo en caché muchos DF para una ejecución más rápida; df1.cache() df2.cache()Una vez que el uso de cierto marco de datos ha terminado y ya no es necesario, ¿cómo ...

1 la respuesta

¿Cómo leer y escribir varias tablas en paralelo en Spark?

En mi aplicación Spark, estoy tratando de leer varias tablas de RDBMS, haciendo un procesamiento de datos, luego escribo varias tablas en otro RDBMS de la siguiente manera (en Scala): val reading1 = sqlContext.load("jdbc", Map("url" -> myurl1, ...

4 la respuesta

cómo cambiar una columna de marco de datos de tipo de cadena a tipo doble en pyspark

Tengo un marco de datos con una columna como String. Quería cambiar el tipo de columna a Tipo doble en PySpark. El siguiente es el camino que hice: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf ...

3 la respuesta

SparkSQL: ¿Cómo lidiar con valores nulos en la función definida por el usuario?

Dada la Tabla 1 con una columna "x" de tipo String. Quiero crear la Tabla 2 con una columna "y" que es una representación entera de las cadenas de fecha dadas en "x". Esenciales mantenernull valores en la columna "y". Tabla 1 (Dataframe ...

4 la respuesta

¿Cuál debería ser el valor óptimo para spark.sql.shuffle.partitions o cómo aumentamos las particiones al usar Spark SQL?

Hola, estoy usando Spark SQL en realidadhiveContext.sql() que usa group by queries y me encuentro conOOM cuestiones. Entonces pensando en aumentar el valor despark.sql.shuffle.partitions de 200 por defecto a 1000 pero no está ayudando. Por favor, ...

3 la respuesta

Eliminar tablas temporales de Apache SQL Spark

yo tengoregistertemptable enApache Spark utilizandoZeppelin abajo: val hvacText = sc.textFile("...") case class Hvac(date: String, time: String, targettemp: Integer, actualtemp: Integer, buildingID: String) val hvac = hvacText.map(s => ...

3 la respuesta

La diferencia entre countDistinct y distinct.count

¿Por qué obtengo diferentes salidas para..agg(countDistinct("member_id") as "count") y..distinct.count? ¿Es la diferencia la misma que entreselect count(distinct member_id) yselect distinct count(member_id)?

1 la respuesta

¿Cómo definir el esquema para el tipo personalizado en Spark SQL?

El siguiente código de ejemplo intenta colocar algunos objetos de caso en un marco de datos. El código incluye la definición de una jerarquía de objetos de caso y una clase de caso que utiliza este rasgo: import org.apache.spark.{SparkContext, ...

3 la respuesta

Spark y SparkSQL: ¿Cómo imitar la función de ventana?

DescripciónDado un marco de datosdf id | date --------------- 1 | 2015-09-01 2 | 2015-09-01 1 | 2015-09-03 1 | 2015-09-04 2 | 2015-09-04Quiero crear un contador o índice en ejecución, agrupados por la misma identificación yordenado por fecha en ...