Resultados de la búsqueda a petición "apache-spark"
¿Cómo abrir / transmitir archivos .zip a través de Spark?
Tengo archivos zip que me gustaría abrir 'a través' de Spark. Puedo abrir el archivo .gzip sin problemas debido al soporte nativo de códec de Hadoops, pero no puedo hacerlo con los archivos .zip. ¿Hay una manera fácil de leer un archivo zip en ...
¿Qué es la memoria reservada en hilo?
Logré lanzar una aplicación de chispa en Yarn. Sin embargo, el uso de emory es un poco extraño, como puede ver a continuación: http://imgur.com/1k6VvSI [http://imgur.com/1k6VvSI] ¿Qué significa memoria reservada? ¿Cómo puedo usar eficientemente ...
procesamiento de registro en tiempo real usando apache spark streaming
Quiero crear un sistema donde pueda leer registros en tiempo real y usar apache spark para procesarlo. Estoy confundido si debería usar algo como kafka o canal para pasar los registros a la corriente de chispas o si debo pasar los registros con ...
¿Función definida por el usuario que se aplicará a Window en PySpark?
Estoy tratando de aplicar una función definida por el usuario a Window en PySpark. He leído que UDAF podría ser el camino a seguir, pero no pude encontrar nada concreto. Para dar un ejemplo (tomado de aquí:Blog de tecnología de ...
spark 2.3.0, parquet 1.8.2: ¿no existen estadísticas para un campo binario en el archivo resultante de la escritura de chispa?
En la rama de chispa maestra: intenté escribir una sola columna con "a", "b", "c" en el archivo de parquetf1 scala> List("a", "b", "c").toDF("field1").coalesce(1).write.parquet("f1")Pero el archivo guardado no tiene estadísticas (min, max) $ ls ...
udf No TypeTag disponible para type string
No entiendo un comportamiento de chispa. Creo un udf que devuelve un entero como a continuación import org.apache.spark.sql.SQLContext import org.apache.spark.{SparkConf, SparkContext} object Show { def main(args: Array[String]): Unit = { ...
Cómo componer el nombre de la columna usando el valor de otra columna para withColumn en Scala Spark
Estoy tratando de agregar una nueva columna a unDataFrame. El valor de esta columna es el valor de otra columna cuyo nombre depende de otras columnas de la misma.DataFrame. Por ejemplo, dado esto: +---+---+----+----+ | A| B| A_1| B_2| ...
Pseudocolumna en Spark JDBC
Estoy usando una consulta para obtener datos de MYSQL de la siguiente manera: var df = spark.read.format("jdbc") .option("url", "jdbc:mysql://10.0.0.192:3306/retail_db") .option("driver" ,"com.mysql.jdbc.Driver") .option("user", "retail_dba") ...
Promedio móvil ponderado en Pyspark
Estoy escribiendo un algoritmo de detección de anomalías para series temporales en Pyspark. Quiero calcular un promedio móvil ponderado de una ventana (-3,3) o (-4,4). En este momento estoy usando las funciones de retraso y guía sobre la ventana ...
Tipos de datos personalizados para columnas DataFrame cuando se usa Spark JDBC
Sé que puedo usar un dialecto personalizado para tener una asignación correcta entre mi base de datos y mi chispa, pero ¿cómo puedo crear un esquema de tabla personalizado con tipos y longitudes de datos de campo específicos cuando uso ...