Resultados de la búsqueda a petición "spark-streaming"

1 la respuesta

Leer archivos dinámicamente desde HDFS desde las funciones de transformación de chispa

¿Cómo se puede leer un archivo de HDFS en una función spark que no utiliza sparkContext dentro de la función? Ejemplo: val filedata_rdd = rdd.map { x => ReadFromHDFS(x.getFilePath) }La pregunta es cómo se puede implementar ReadFromHDFS. Por lo ...

2 la respuesta

¿Pueden SparkContext y StreamingContext coexistir en el mismo programa?

Estoy tratando de configurar un código de Sparkstreaming que lee la línea del servidor Kafka pero la procesa usando reglas escritas en otro archivo local. Estoy creando streamingContext para los datos de transmisión y sparkContext para otros ...

1 la respuesta

En Spark Streaming, ¿hay alguna forma de detectar cuándo ha finalizado un lote?

Yo uso Spark 1.6.0 con Cloudera 5.8.3. tengo unDStream objeto y muchas transformaciones definidas encima de él, val stream = KafkaUtils.createDirectStream[...](...) val mappedStream = stream.transform { ... }.map { ... } mappedStream.foreachRDD ...

1 la respuesta

establecer spark.streaming.kafka.maxRatePerPartition para createDirectStream

Necesito aumentar la velocidad de entrada por partición para mi aplicación y tengo uso.set("spark.streaming.kafka.maxRatePerPartition",100) para la config. La duración de la transmisión es de 10 s, por lo que espero un proceso5*100*10=5000 ...

2 la respuesta

El valor de la configuración "spark.yarn.executor.memoryOverhead"?

El valor despark.yarn.executor.memoryOverhead en un trabajo de Spark con YARN debe asignarse a la aplicación o solo al valor máximo?

2 la respuesta

Cómo convertir JavaPairInputDStream en DataSet / DataFrame en Spark

Estoy tratando de recibir datos de transmisión dekafka. En este proceso, puedo recibir y almacenar los datos de transmisión enJavaPairInputDStream. Ahora necesito analizar estos datos sin almacenarlos en ninguna base de datos, así que quiero ...

1 la respuesta

Spark-Streaming Kafka Direct Streaming API y paralelismo

Entendí el mapeo automatizado que existe entre una partición Kafka y una partición Spark RDD y, en última instancia, la tarea Spark. Sin embargo, para dimensionar adecuadamente Mi ejecutor (en número de Core) y, por lo tanto, en última instancia, ...

1 la respuesta

Excepción en el hilo "principal" java.lang.NoClassDefFoundError: org / spark_project / guava / cache / CacheLoader

Cuando estoy tratando de ejecutar mi proyecto kafka spark. Me aparece el siguiente error: Exception in thread "main" java.lang.NoClassDefFoundError: org/spark_project/guava/cache/CacheLoader ...

1 la respuesta

No puede persistir el DStream para su uso en el próximo lote

JavaRDD<String> history_ = sc.emptyRDD(); java.util.Queue<JavaRDD<String> > queue = new LinkedList<JavaRDD<String>>(); queue.add(history_); JavaDStream<String> history_dstream = ssc.queueStream(queue); JavaPairDStream<String,ArrayList<String>> ...

1 la respuesta

Cómo se conservan los RDD del historial para su uso posterior en el código dado

{ var history: RDD[(String, List[String]) = sc.emptyRDD() val dstream1 = ... val dstream2 = ... val historyDStream = dstream1.transform(rdd => rdd.union(history)) val joined = historyDStream.join(dstream2) ... do stuff with joined as above, ...