Resultados de la búsqueda a petición "spark-streaming"

1 la respuesta

establecer spark.streaming.kafka.maxRatePerPartition para createDirectStream

Necesito aumentar la velocidad de entrada por partición para mi aplicación y tengo uso.set("spark.streaming.kafka.maxRatePerPartition",100) para la config. La duración de la transmisión es de 10 s, por lo que espero un proceso5*100*10=5000 ...

2 la respuesta

Cómo convertir JavaPairInputDStream en DataSet / DataFrame en Spark

Estoy tratando de recibir datos de transmisión dekafka. En este proceso, puedo recibir y almacenar los datos de transmisión enJavaPairInputDStream. Ahora necesito analizar estos datos sin almacenarlos en ninguna base de datos, así que quiero ...

2 la respuesta

¿Pueden SparkContext y StreamingContext coexistir en el mismo programa?

Estoy tratando de configurar un código de Sparkstreaming que lee la línea del servidor Kafka pero la procesa usando reglas escritas en otro archivo local. Estoy creando streamingContext para los datos de transmisión y sparkContext para otros ...

1 la respuesta

Leer archivos dinámicamente desde HDFS desde las funciones de transformación de chispa

¿Cómo se puede leer un archivo de HDFS en una función spark que no utiliza sparkContext dentro de la función? Ejemplo: val filedata_rdd = rdd.map { x => ReadFromHDFS(x.getFilePath) }La pregunta es cómo se puede implementar ReadFromHDFS. Por lo ...

1 la respuesta

¿Cómo dejar de ejecutar la aplicación Spark Streaming con gracia?

¿Cómo detengo la transmisión por chispa? Mi trabajo de transmisión de chispas se ejecuta continuamente. Quiero parar de una manera elegante. He visto la siguiente opción para cerrar la aplicación de ...

3 la respuesta

Limite el tamaño de los lotes de Kafka cuando use Spark Streaming

¿Es posible limitar el tamaño de los lotes devueltos por el consumidor de Kafka para Spark Streaming? Lo pregunto porque el primer lote que obtengo tiene cientos de millones de registros y lleva años procesarlos y revisarlos.

2 la respuesta

Cómo guardar / insertar cada DStream en una tabla permanente

He estado enfrentando un problema con "Spark Streaming" sobre la inserción de la salida Dstream en unpermanente Tabla SQL. Me gustaría insertar cada salida DStream (proveniente de un solo lote que genera procesos) en una tabla única. He estado ...

5 la respuesta

Spark DataFrame: ¿groupBy after orderBy mantiene ese orden?

Tengo un marco de datos Spark 2.0example con la siguiente estructura: id, hour, count id1, 0, 12 id1, 1, 55 .. id1, 23, 44 id2, 0, 12 id2, 1, 89 .. id2, 23, 34 etc.Contiene 24 entradas para cada id (una para cada hora del día) y se ordena por ...

1 la respuesta

Excepción al acceder a KafkaOffset desde RDD

Tengo un consumidor de Spark que se transmite desde Kafka. Estoy tratando de gestionar las compensaciones para la semántica de una sola vez. Sin embargo, al acceder al desplazamiento, arroja la siguiente ...

2 la respuesta

Spark no imprime salidas en la consola dentro de la función de mapa

Tengo una aplicación Spark simple que se ejecuta en modo de clúster. val funcGSSNFilterHeader = (x: String) => { println(!x.contains("servedMSISDN") !x.contains("servedMSISDN") } val ssc = new StreamingContext(sc, Seconds(batchIntervalSeconds)) ...