Resultados de la búsqueda a petición "spark-streaming"

2 la respuesta

Procese Spark Streaming rdd y almacene en un solo archivo HDFS

Estoy usando Kafka Spark Streaming para obtener datos de transmisión. val lines = KafkaUtils.createDirectStream[Array[Byte], String, DefaultDecoder, StringDecoder](ssc, kafkaConf, Set(topic)).map(_._2)Estoy usando este DStream y procesando ...

2 la respuesta

Suelte el marco de datos de chispa del caché

Estoy usando Spark 1.3.0 con python api. Al transformar grandes marcos de datos, guardo en caché muchos DF para una ejecución más rápida; df1.cache() df2.cache()Una vez que el uso de cierto marco de datos ha terminado y ya no es necesario, ¿cómo ...

2 la respuesta

¿Habrá algún escenario en el que los Spark RDD no puedan satisfacer la inmutabilidad?

Los Spark RDD se construyen de manera inmutable, tolerante a fallas y resistente. ¿Los RDD satisfacen la inmutabilidad en todos los escenarios? ¿O hay algún caso, ya sea en Streaming o Core, donde RDD podría no satisfacer la inmutabilidad?

2 la respuesta

Lectura de Cassandra usando Spark Streaming

Tengo un problema cuando uso la transmisión por chispa para leer de ...

2 la respuesta

Spark Worker no puede conectarse a Master

Al iniciar el nodo de trabajo me sale el siguiente error: Spark Command: /usr/lib/jvm/default-java/bin/java ...

2 la respuesta

Manejo de excepciones no capturadas en Spark

Estoy trabajando en una aplicación Spark Streaming basada en Java que responde a mensajes que llegan a través de un tema de Kafka. Para cada mensaje, la aplicación procesa un poco y escribe los resultados en un tema diferente de Kafka. A veces, ...

2 la respuesta

No se pudieron encontrar líderes para Set ([TOPICNNAME, 0])) Cuando estamos usando Apache Saprk

Estamos usando Apache Spark 1.5.1 y kafka_2.10-0.8.2.1 y Kafka DirectStream API para obtener datos de Kafka usando Spark. Creamos los temas en Kafka con la siguiente configuración ReplicationFactor: 1 y Replica: 1 Cuando se ejecutan todas las ...

2 la respuesta

Spark: procesando múltiples temas kafka en paralelo

estoy usandospark 1.5.2. Necesito ejecutar un trabajo de transmisión por chispa con kafka como fuente de transmisión. Necesito leer de múltiples temas dentro de kafka y procesar cada tema de manera diferente. ¿Es una buena idea hacer esto en el ...

2 la respuesta

Spark Streaming mapWithState parece reconstruir el estado completo periódicamente

Estoy trabajando en un proyecto de transmisión Scala (2.11) / Spark (1.6.1) y estoy usandomapWithState() para realizar un seguimiento de los datos vistos de lotes anteriores. El estado se distribuye en 20 particiones en múltiples nodos, ...

2 la respuesta

Continuamente INFO JobScheduler: 59 - Se agregaron trabajos por tiempo *** ms en mi Spark Standalone Cluster

Estamos trabajando con Spark Standalone Cluster con 8 núcleos y 32 GB de RAM, con 3 nodos con la misma configuración. Algunas veces, el lote de transmisión se completó en menos de 1 segundo. algunas veces lleva más de 10 segundos en ese momento ...