Resultados de la búsqueda a petición "spark-streaming"
Procese Spark Streaming rdd y almacene en un solo archivo HDFS
Estoy usando Kafka Spark Streaming para obtener datos de transmisión. val lines = KafkaUtils.createDirectStream[Array[Byte], String, DefaultDecoder, StringDecoder](ssc, kafkaConf, Set(topic)).map(_._2)Estoy usando este DStream y procesando ...
Suelte el marco de datos de chispa del caché
Estoy usando Spark 1.3.0 con python api. Al transformar grandes marcos de datos, guardo en caché muchos DF para una ejecución más rápida; df1.cache() df2.cache()Una vez que el uso de cierto marco de datos ha terminado y ya no es necesario, ¿cómo ...
¿Habrá algún escenario en el que los Spark RDD no puedan satisfacer la inmutabilidad?
Los Spark RDD se construyen de manera inmutable, tolerante a fallas y resistente. ¿Los RDD satisfacen la inmutabilidad en todos los escenarios? ¿O hay algún caso, ya sea en Streaming o Core, donde RDD podría no satisfacer la inmutabilidad?
Lectura de Cassandra usando Spark Streaming
Tengo un problema cuando uso la transmisión por chispa para leer de ...
Spark Worker no puede conectarse a Master
Al iniciar el nodo de trabajo me sale el siguiente error: Spark Command: /usr/lib/jvm/default-java/bin/java ...
Manejo de excepciones no capturadas en Spark
Estoy trabajando en una aplicación Spark Streaming basada en Java que responde a mensajes que llegan a través de un tema de Kafka. Para cada mensaje, la aplicación procesa un poco y escribe los resultados en un tema diferente de Kafka. A veces, ...
No se pudieron encontrar líderes para Set ([TOPICNNAME, 0])) Cuando estamos usando Apache Saprk
Estamos usando Apache Spark 1.5.1 y kafka_2.10-0.8.2.1 y Kafka DirectStream API para obtener datos de Kafka usando Spark. Creamos los temas en Kafka con la siguiente configuración ReplicationFactor: 1 y Replica: 1 Cuando se ejecutan todas las ...
Spark: procesando múltiples temas kafka en paralelo
estoy usandospark 1.5.2. Necesito ejecutar un trabajo de transmisión por chispa con kafka como fuente de transmisión. Necesito leer de múltiples temas dentro de kafka y procesar cada tema de manera diferente. ¿Es una buena idea hacer esto en el ...
Spark Streaming mapWithState parece reconstruir el estado completo periódicamente
Estoy trabajando en un proyecto de transmisión Scala (2.11) / Spark (1.6.1) y estoy usandomapWithState() para realizar un seguimiento de los datos vistos de lotes anteriores. El estado se distribuye en 20 particiones en múltiples nodos, ...
Continuamente INFO JobScheduler: 59 - Se agregaron trabajos por tiempo *** ms en mi Spark Standalone Cluster
Estamos trabajando con Spark Standalone Cluster con 8 núcleos y 32 GB de RAM, con 3 nodos con la misma configuración. Algunas veces, el lote de transmisión se completó en menos de 1 segundo. algunas veces lleva más de 10 segundos en ese momento ...