Resultados de la búsqueda a petición "spark-streaming"
Leer archivos dinámicamente desde HDFS desde las funciones de transformación de chispa
¿Cómo se puede leer un archivo de HDFS en una función spark que no utiliza sparkContext dentro de la función? Ejemplo: val filedata_rdd = rdd.map { x => ReadFromHDFS(x.getFilePath) }La pregunta es cómo se puede implementar ReadFromHDFS. Por lo ...
¿Pueden SparkContext y StreamingContext coexistir en el mismo programa?
Estoy tratando de configurar un código de Sparkstreaming que lee la línea del servidor Kafka pero la procesa usando reglas escritas en otro archivo local. Estoy creando streamingContext para los datos de transmisión y sparkContext para otros ...
En Spark Streaming, ¿hay alguna forma de detectar cuándo ha finalizado un lote?
Yo uso Spark 1.6.0 con Cloudera 5.8.3. tengo unDStream objeto y muchas transformaciones definidas encima de él, val stream = KafkaUtils.createDirectStream[...](...) val mappedStream = stream.transform { ... }.map { ... } mappedStream.foreachRDD ...
establecer spark.streaming.kafka.maxRatePerPartition para createDirectStream
Necesito aumentar la velocidad de entrada por partición para mi aplicación y tengo uso.set("spark.streaming.kafka.maxRatePerPartition",100) para la config. La duración de la transmisión es de 10 s, por lo que espero un proceso5*100*10=5000 ...
El valor de la configuración "spark.yarn.executor.memoryOverhead"?
El valor despark.yarn.executor.memoryOverhead en un trabajo de Spark con YARN debe asignarse a la aplicación o solo al valor máximo?
Cómo convertir JavaPairInputDStream en DataSet / DataFrame en Spark
Estoy tratando de recibir datos de transmisión dekafka. En este proceso, puedo recibir y almacenar los datos de transmisión enJavaPairInputDStream. Ahora necesito analizar estos datos sin almacenarlos en ninguna base de datos, así que quiero ...
Spark-Streaming Kafka Direct Streaming API y paralelismo
Entendí el mapeo automatizado que existe entre una partición Kafka y una partición Spark RDD y, en última instancia, la tarea Spark. Sin embargo, para dimensionar adecuadamente Mi ejecutor (en número de Core) y, por lo tanto, en última instancia, ...
Excepción en el hilo "principal" java.lang.NoClassDefFoundError: org / spark_project / guava / cache / CacheLoader
Cuando estoy tratando de ejecutar mi proyecto kafka spark. Me aparece el siguiente error: Exception in thread "main" java.lang.NoClassDefFoundError: org/spark_project/guava/cache/CacheLoader ...
No puede persistir el DStream para su uso en el próximo lote
JavaRDD<String> history_ = sc.emptyRDD(); java.util.Queue<JavaRDD<String> > queue = new LinkedList<JavaRDD<String>>(); queue.add(history_); JavaDStream<String> history_dstream = ssc.queueStream(queue); JavaPairDStream<String,ArrayList<String>> ...
Cómo se conservan los RDD del historial para su uso posterior en el código dado
{ var history: RDD[(String, List[String]) = sc.emptyRDD() val dstream1 = ... val dstream2 = ... val historyDStream = dstream1.transform(rdd => rdd.union(history)) val joined = historyDStream.join(dstream2) ... do stuff with joined as above, ...