Resultados de la búsqueda a petición "spark-streaming"

¿Cómo se puede leer un archivo de HDFS en una función spark que no utiliza sparkContext dentro de la función? Ejemplo: val filedata_rdd = rdd.map { x => ReadFromHDFS(x.getFilePath) }La pregunta es cómo se puede implementar ReadFromHDFS. Por lo ...

scala apache-spark

2 la respuesta

¿Pueden SparkContext y StreamingContext coexistir en el mismo programa?

Estoy tratando de configurar un código de Sparkstreaming que lee la línea del servidor Kafka pero la procesa usando reglas escritas en otro archivo local. Estoy creando streamingContext para los datos de transmisión y sparkContext para otros ...

cloudera apache-spark scala

1 la respuesta

En Spark Streaming, ¿hay alguna forma de detectar cuándo ha finalizado un lote?

Yo uso Spark 1.6.0 con Cloudera 5.8.3. tengo unDStream objeto y muchas transformaciones definidas encima de él, val stream = KafkaUtils.createDirectStream[...](...) val mappedStream = stream.transform { ... }.map { ... } mappedStream.foreachRDD ...

apache-spark

1 la respuesta

establecer spark.streaming.kafka.maxRatePerPartition para createDirectStream

Necesito aumentar la velocidad de entrada por partición para mi aplicación y tengo uso.set("spark.streaming.kafka.maxRatePerPartition",100) para la config. La duración de la transmisión es de 10 s, por lo que espero un proceso5*100*10=5000 ...

apache-spark-mllib apache-spark apache-spark-sql

2 la respuesta

El valor de la configuración "spark.yarn.executor.memoryOverhead"?

El valor despark.yarn.executor.memoryOverhead en un trabajo de Spark con YARN debe asignarse a la aplicación o solo al valor máximo?

apache-kafka streaming apache-spark java

2 la respuesta

Cómo convertir JavaPairInputDStream en DataSet / DataFrame en Spark

Estoy tratando de recibir datos de transmisión dekafka. En este proceso, puedo recibir y almacenar los datos de transmisión enJavaPairInputDStream. Ahora necesito analizar estos datos sin almacenarlos en ninguna base de datos, así que quiero ...

apache-spark apache-kafka

1 la respuesta

Spark-Streaming Kafka Direct Streaming API y paralelismo

Entendí el mapeo automatizado que existe entre una partición Kafka y una partición Spark RDD y, en última instancia, la tarea Spark. Sin embargo, para dimensionar adecuadamente Mi ejecutor (en número de Core) y, por lo tanto, en última instancia, ...

pom.xml maven apache-spark apache-kafka

1 la respuesta

Excepción en el hilo "principal" java.lang.NoClassDefFoundError: org / spark_project / guava / cache / CacheLoader

Cuando estoy tratando de ejecutar mi proyecto kafka spark. Me aparece el siguiente error: Exception in thread "main" java.lang.NoClassDefFoundError: org/spark_project/guava/cache/CacheLoader ...

apache-kafka dstream

1 la respuesta

No puede persistir el DStream para su uso en el próximo lote

JavaRDD<String> history_ = sc.emptyRDD(); java.util.Queue<JavaRDD<String> > queue = new LinkedList<JavaRDD<String>>(); queue.add(history_); JavaDStream<String> history_dstream = ssc.queueStream(queue); JavaPairDStream<String,ArrayList<String>> ...

1 la respuesta

Cómo se conservan los RDD del historial para su uso posterior en el código dado

{ var history: RDD[(String, List[String]) = sc.emptyRDD() val dstream1 = ... val dstream2 = ... val historyDStream = dstream1.transform(rdd => rdd.union(history)) val joined = historyDStream.join(dstream2) ... do stuff with joined as above, ...

Página 3 de 8

1 234 5

Resultados de la búsqueda a petición "spark-streaming"

Leer archivos dinámicamente desde HDFS desde las funciones de transformación de chispa

¿Pueden SparkContext y StreamingContext coexistir en el mismo programa?

En Spark Streaming, ¿hay alguna forma de detectar cuándo ha finalizado un lote?

Etiquetas Populares

establecer spark.streaming.kafka.maxRatePerPartition para createDirectStream

El valor de la configuración "spark.yarn.executor.memoryOverhead"?

Cómo convertir JavaPairInputDStream en DataSet / DataFrame en Spark

Spark-Streaming Kafka Direct Streaming API y paralelismo

Excepción en el hilo "principal" java.lang.NoClassDefFoundError: org / spark_project / guava / cache / CacheLoader

No puede persistir el DStream para su uso en el próximo lote

Cómo se conservan los RDD del historial para su uso posterior en el código dado

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "spark-streaming"

Etiquetas Populares