Resultados de la búsqueda a petición "apache-spark"

Tengo archivos zip que me gustaría abrir 'a través' de Spark. Puedo abrir el archivo .gzip sin problemas debido al soporte nativo de códec de Hadoops, pero no puedo hacerlo con los archivos .zip. ¿Hay una manera fácil de leer un archivo zip en ...

hadoop2 hadoop yarn

1 la respuesta

¿Qué es la memoria reservada en hilo?

Logré lanzar una aplicación de chispa en Yarn. Sin embargo, el uso de emory es un poco extraño, como puede ver a continuación: http://imgur.com/1k6VvSI [http://imgur.com/1k6VvSI] ¿Qué significa memoria reservada? ¿Cómo puedo usar eficientemente ...

apache-kafka flume spark-streaming

3 la respuesta

procesamiento de registro en tiempo real usando apache spark streaming

Quiero crear un sistema donde pueda leer registros en tiempo real y usar apache spark para procesarlo. Estoy confundido si debería usar algo como kafka o canal para pasar los registros a la corriente de chispas o si debo pasar los registros con ...

pyspark aggregate-functions user-defined-functions window-functions

1 la respuesta

¿Función definida por el usuario que se aplicará a Window en PySpark?

Estoy tratando de aplicar una función definida por el usuario a Window en PySpark. He leído que UDAF podría ser el camino a seguir, pero no pude encontrar nada concreto. Para dar un ejemplo (tomado de aquí:Blog de tecnología de ...

parquet

1 la respuesta

spark 2.3.0, parquet 1.8.2: ¿no existen estadísticas para un campo binario en el archivo resultante de la escritura de chispa?

En la rama de chispa maestra: intenté escribir una sola columna con "a", "b", "c" en el archivo de parquetf1 scala> List("a", "b", "c").toDF("field1").coalesce(1).write.parquet("f1")Pero el archivo guardado no tiene estadísticas (min, max) $ ls ...

scala apache-spark-1.6

1 la respuesta

udf No TypeTag disponible para type string

No entiendo un comportamiento de chispa. Creo un udf que devuelve un entero como a continuación import org.apache.spark.sql.SQLContext import org.apache.spark.{SparkConf, SparkContext} object Show { def main(args: Array[String]): Unit = { ...

scala apache-spark-sql

2 la respuesta

Cómo componer el nombre de la columna usando el valor de otra columna para withColumn en Scala Spark

Estoy tratando de agregar una nueva columna a unDataFrame. El valor de esta columna es el valor de otra columna cuyo nombre depende de otras columnas de la misma.DataFrame. Por ejemplo, dado esto: +---+---+----+----+ | A| B| A_1| B_2| ...

apache-spark-sql spark-jdbc

2 la respuesta

Pseudocolumna en Spark JDBC

Estoy usando una consulta para obtener datos de MYSQL de la siguiente manera: var df = spark.read.format("jdbc") .option("url", "jdbc:mysql://10.0.0.192:3306/retail_db") .option("driver" ,"com.mysql.jdbc.Driver") .option("user", "retail_dba") ...

python pyspark

1 la respuesta

Promedio móvil ponderado en Pyspark

Estoy escribiendo un algoritmo de detección de anomalías para series temporales en Pyspark. Quiero calcular un promedio móvil ponderado de una ventana (-3,3) o (-4,4). En este momento estoy usando las funciones de retraso y guía sobre la ventana ...

jdbc

1 la respuesta

Tipos de datos personalizados para columnas DataFrame cuando se usa Spark JDBC

Sé que puedo usar un dialecto personalizado para tener una asignación correcta entre mi base de datos y mi chispa, pero ¿cómo puedo crear un esquema de tabla personalizado con tipos y longitudes de datos de campo específicos cuando uso ...

Página 91 de 165

89 909192 93

Resultados de la búsqueda a petición "apache-spark"

¿Cómo abrir / transmitir archivos .zip a través de Spark?

¿Qué es la memoria reservada en hilo?

procesamiento de registro en tiempo real usando apache spark streaming

Etiquetas Populares

¿Función definida por el usuario que se aplicará a Window en PySpark?

spark 2.3.0, parquet 1.8.2: ¿no existen estadísticas para un campo binario en el archivo resultante de la escritura de chispa?

udf No TypeTag disponible para type string

Cómo componer el nombre de la columna usando el valor de otra columna para withColumn en Scala Spark

Pseudocolumna en Spark JDBC

Promedio móvil ponderado en Pyspark

Tipos de datos personalizados para columnas DataFrame cuando se usa Spark JDBC

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "apache-spark"

Etiquetas Populares