Resultados de la búsqueda a petición "spark-streaming"

2 la respuesta

Cómo escribir la salida de Spark Streaming en HDFS sin sobrescribir

Después de un procesamiento, tengo un DStream [String, ArrayList [String]], así que cuando lo escribo en hdfs usando saveAsTextFile y después de cada lote sobrescribe los datos, así que cómo escribir un nuevo resultado al agregarlo a resultados ...

1 la respuesta

Acceso a la colección de DStreams

Estoy tratando de acceder a una colección de DStreams filtrados obtenidos como en la solución a esta pregunta:Spark Streaming: la mejor manera de dividir el flujo de entrada según el parámetro de ...

3 la respuesta

Spark Structured Streaming con integración Hbase

Estamos haciendo streaming de datos kafka que se recopilan de MySQL. Ahora, una vez que se hayan realizado todos los análisis, quiero guardar mis datos directamente en Hbase. Tengo a través del documento de transmisión estructurado por chispa, ...

2 la respuesta

Spark estructurado coherencia de transmisión a través de sumideros

Me gustaría entender mejor el modelo de coherencia de la transmisión estructurada de Spark 2.2 en el siguiente caso: una fuente (Kinesis)2 consultas de esta fuente hacia 2 sumideros diferentes: un receptor de archivos para fines de archivo (S3) ...

2 la respuesta

¿Qué recupera Spark los datos de un nodo fallido?

Supongamos que tenemos un RDD, que se usa varias veces. Entonces, para guardar los cálculos una y otra vez, persistimos en este RDD usando el método rdd.persist (). Entonces, cuando persistimos en este RDD, los nodos que computan el ...

1 la respuesta

Spark Streaming Recuento acumulado de palabras

Este es un programa de transmisión por chispa escrito en scala. Cuenta la cantidad de palabras de un socket en cada 1 segundo. El resultado sería el recuento de palabras, por ejemplo, el recuento de palabras del tiempo 0 al 1, y el recuento de ...

1 la respuesta

Advertencia de causa UDF: CachedKafkaConsumer no se está ejecutando en UninterruptibleThread (KAFKA-1894)

En un habitualstructure_kafka_wordcount.py [https://gist.github.com/hrchu/2b2590f2f737ef430ac32b7f8edc15c0]código, Cuando divido líneas en palabras porudf como abajo, my_split = udf(lambda x: x.split(' '), ArrayType(StringType())) words ...

2 la respuesta

Spark Strutured Streaming convierte automáticamente la marca de tiempo a la hora local

Tengo mi marca de tiempo en UTC e ISO8601, pero usando Structured Streaming, se convierte automáticamente a la hora local. ¿Hay alguna manera de detener esta conversión? Me gustaría tenerlo en UTC. Estoy leyendo datos json de Kafka y luego los ...

1 la respuesta

Spark streaming StreamingContext.start () - Error al iniciar el receptor 0

Tengo un proyecto que está utilizando la transmisión por chispa y lo estoy ejecutando con 'spark-submit', pero estoy recibiendo este error: 15/01/14 10:34:18 ERROR ReceiverTracker: Deregistered receiver for stream 0: Error starting receiver 0 - ...

6 la respuesta

spark ssc.textFileStream no está actualizando ningún archivo del directorio

Estoy tratando de ejecutar el siguiente código usando eclipse (con maven conf) con 2 trabajadores y cada uno tiene 2 núcleos o también probé con spark-submit. public class StreamingWorkCount implements Serializable { public static ...