Resultados da pesquisa a pedido "spark-streaming"

2 a resposta

O valor da configuração "spark.yarn.executor.memoryOverhead"?

O valor despark.yarn.executor.memoryOverhead em um trabalho do Spark com YARN deve ser alocado para o aplicativo ou apenas o valor máximo?

2 a resposta

O Spark não imprime saídas no console na função map

Eu tenho um aplicativo Spark simples em execução no modo de cluster. val funcGSSNFilterHeader = (x: String) => { println(!x.contains("servedMSISDN") !x.contains("servedMSISDN") } val ssc = new StreamingContext(sc, Seconds(batchIntervalSeconds)) ...

1 a resposta

Exceção no encadeamento "main" java.lang.NoClassDefFoundError: org / spark_project / guava / cache / CacheLoader

Quando estou tentando executar meu projeto kafka spark. Estou recebendo o erro abaixo: Exception in thread "main" java.lang.NoClassDefFoundError: org/spark_project/guava/cache/CacheLoader ...

1 a resposta

No Spark Streaming, existe uma maneira de detectar quando um lote termina?

Eu uso o Spark 1.6.0 com o Cloudera 5.8.3. eu tenho umDStream objeto e muitas transformações definidas em cima dele, val stream = KafkaUtils.createDirectStream[...](...) val mappedStream = stream.transform { ... }.map { ... } ...

1 a resposta

Como os RDDs históricos são preservados para uso posterior no código fornecido

{ var history: RDD[(String, List[String]) = sc.emptyRDD() val dstream1 = ... val dstream2 = ... val historyDStream = dstream1.transform(rdd => rdd.union(history)) val joined = historyDStream.join(dstream2) ... do stuff with joined as above, ...

2 a resposta

Como gravar a saída do Spark Streaming no HDFS sem substituir

Após algum processamento, tenho um DStream [String, ArrayList [String]]; portanto, quando eu estou gravando em hdfs usando saveAsTextFile e depois de cada lote, os dados são substituídos; portanto, como gravar um novo resultado acrescentando ...

3 a resposta

Spark Structured Streaming com integração Hbase

Estamos fazendo streaming de dados kafka que estão sendo coletados no MySQL. Agora que todas as análises estiverem concluídas, quero salvar meus dados diretamente no Hbase. Passei pelo documento de streaming estruturado do spark, mas não consegui ...

2 a resposta

Consistir consistência de streaming estruturado entre coletores

Gostaria de entender melhor o modelo de consistência do streaming estruturado do Spark 2.2 no seguinte caso: uma fonte (Kinesis)2 consultas desta fonte para 2 coletores diferentes: um coletor de arquivos para fins de arquivamento (S3) e outro ...

1 a resposta

API e Paralelismo de Streaming Direto Kafka do Spark-Streaming

Entendi o mapeamento automatizado que existe entre uma Partição Kafka e uma partição Spark RDD e, finalmente, a Tarefa Spark. No entanto, para dimensionar corretamente meu executor (em número de núcleos) e, portanto, em última análise, meu nó e ...

1 a resposta

Aviso de causa UDF: CachedKafkaConsumer não está sendo executado no UninterruptibleThread (KAFKA-1894)

Em um habitualstruct_kafka_wordcount.py [https://gist.github.com/hrchu/2b2590f2f737ef430ac32b7f8edc15c0]código, Quando divido linhas em palavras porudf como abaixo, my_split = udf(lambda x: x.split(' '), ArrayType(StringType())) words ...