Resultados de la búsqueda a petición "spark-streaming"

3 la respuesta

procesamiento de registro en tiempo real usando apache spark streaming

Quiero crear un sistema donde pueda leer registros en tiempo real y usar apache spark para procesarlo. Estoy confundido si debería usar algo como kafka o canal para pasar los registros a la corriente de chispas o si debo pasar los registros con ...

1 la respuesta

Convierte entre Streaming Dataset y DStream

¿Es posible convertir una transmisión?o.a.s.sql.Dataset aDStream? ¿Si es así, cómo? Sé cómo convertirlo a RDD, pero está en un contexto de transmisión.

3 la respuesta

Spark usando python: cómo resolver Stage x contiene una tarea de gran tamaño (xxx KB). El tamaño máximo recomendado de la tarea es de 100 KB.

Acabo de crear una lista de Python derange(1,100000). Utilizando SparkContext se realizaron los siguientes pasos: a = sc.parallelize([i for i in range(1, 100000)]) b = sc.parallelize([i for i in range(1, 100000)]) c = a.zip(b) >>> [(1, 1), (2, ...

1 la respuesta

¿Cuál es la diferencia entre un sistema "con estado" y "sin estado"?

Apache Spark [https://people.csail.mit.edu/matei/papers/2013/sosp_spark_streaming.pdf]se jacta de que sus operadores (nodos) están "sin estado". Esto permite que la arquitectura de Spark utilice protocolos más simples para cosas ...

3 la respuesta

Spark Streaming: HDFS

No puedo hacer que mi trabajo de Spark transmita archivos "antiguos" de HDFS.Si mi trabajo de Spark está inactivo por alguna razón (por ejemplo, demostración, implementación) pero la escritura / traslado al directorio HDFS es continua, podría ...

2 la respuesta

¿Cómo establecer y obtener variables estáticas de la chispa?

Tengo una clase como esta: public class Test { private static String name; public static String getName() { return name; } public static void setName(String name) { Test.name = name; } public static void print() { System.out.println(name); } }en ...

1 la respuesta

Partiotioning personalizado de JavaDStreamPairRDD

En Spark Streaming, ¿cuál es la forma recomendada de implementar un partiotioner personalizado en DStreams? He usado JavaPairRDD.partitionBy (Partitioner) en modo por lotes, pero no he encontrado un equivalente en JavaDStreamPairRDD. Gracias

1 la respuesta

Spark streaming de datos compartidos entre lotes

Spark Stream procesa los datos en micro lotes. Cada intervalo de datos se procesa en paralelo utilizando RDD sin compartir datos entre cada intervalo. Pero mi caso de uso necesita compartir los datos entre intervalos. Considera elRed ...

2 la respuesta

Spark Python Deserializador Avro Kafka

He creado un flujo de kafka en una aplicación Python Spark y puedo analizar cualquier texto que llegue a través de él. kafkaStream = KafkaUtils.createStream(ssc, zkQuorum, "spark-streaming-consumer", {topic: 1})Quiero cambiar esto para poder ...

1 la respuesta

¿Cómo filtrar dstream usando la operación de transformación y RDD externo?

solíatransform método en un caso de uso similar al descrito enOperación de transformaciónSección deTransformaciones en DStreams [https://spark.apache.org/docs/1.4.0/streaming-programming-guide.html#transformations-on-dstreams] : spamInfoRDD = ...