Resultados de la búsqueda a petición "apache-spark"
¿Cómo solucionar problemas de una notebook programada DSX?
Tengo un portátil DSX que puedo ejecutar manualmente usando la interfaz de usuario DSX y llena algunos datos en una base de datos Cloudant. He programado que el cuaderno se ejecute cada hora. Durante la noche, hubiera esperado que el trabajo se ...
¿Cómo hacer la unión externa izquierda en spark sql?
Estoy tratando de hacer una unión externa izquierda en spark (1.6.2) y no funciona. Mi consulta sql es así: sqlContext.sql("select t.type, t.uuid, p.uuid from symptom_type t LEFT JOIN plugin p ON t.uuid = p.uuid where t.created_year = 2016 and ...
retraso de la función de ventana de sql spark
Estoy mirando la función de diapositiva de ventana para un Spark DataFrame en Spark SQL, Scala. Tengo un marco de datos con columnas Col1, Col1, Col1, fecha. Col1 Col2 Col3 date volume new_col 201601 100.5 201602 120.6 100.5 201603 450.2 120.6 ...
Pyspark agregar variable de entorno ejecutor
¿Es posible agregar un valor al PYTHONPATH de un trabajador en chispa? Sé que es posible ir a cada nodo de trabajo, configurar el archivo spark-env.sh y hacerlo, pero quiero un enfoque más flexible Estoy tratando de usar el método ...
¿Pueden SparkContext y StreamingContext coexistir en el mismo programa?
Estoy tratando de configurar un código de Sparkstreaming que lee la línea del servidor Kafka pero la procesa usando reglas escritas en otro archivo local. Estoy creando streamingContext para los datos de transmisión y sparkContext para otros ...
Cómo usar la extracción de características con DStream en Apache Spark
Tengo datos que llegan de Kafka a través de DStream. Quiero realizar una extracción de características para obtener algunas palabras clave. No quiero esperar la llegada de todos los datos (ya que está destinado a ser un flujo continuo que ...
Scala: Spark SQL to_date (unix_timestamp) que devuelve NULL
Spark Version: spark-2.0.1-bin-hadoop2.7 Scala: 2.11.8 Estoy cargando un csv en bruto en un DataFrame. En csv, aunque se admite que la columna esté en formato de fecha, se escriben como 20161025 en lugar de 2016-10-25. El parámetrodate_format ...
Spark SQL fechado en segundos
Tengo el siguiente código: table.select(datediff(table.col("Start Time"), table.col("End Time"))).show()El formato de fecha es2016-05-19 09:23:28 (YYYY-MM-DD HH:mm:SS) FunciónfechadoCalcule la diferencia en días. Pero me gustaría tener ...
En Spark Streaming, ¿hay alguna forma de detectar cuándo ha finalizado un lote?
Yo uso Spark 1.6.0 con Cloudera 5.8.3. tengo unDStream objeto y muchas transformaciones definidas encima de él, val stream = KafkaUtils.createDirectStream[...](...) val mappedStream = stream.transform { ... }.map { ... } mappedStream.foreachRDD ...
Caché de objetos en ejecutores de Spark
Una buena pregunta para los expertos de Spark. Estoy procesando datos en unmap operación (RDD). Dentro de la función de mapeador, necesito buscar objetos de claseA para ser utilizado en el procesamiento de elementos en un RDD. Dado que esto se ...