Resultados da pesquisa a pedido "spark-streaming"

2 a resposta

O SparkContext e o StreamingContext podem coexistir no mesmo programa?

Estou tentando configurar um código Sparkstreaming que lê a linha do servidor Kafka, mas o processa usando regras escritas em outro arquivo local. Estou criando streamingContext para os dados de streaming e sparkContext para outros aplicando ...

2 a resposta

Como converter JavaPairInputDStream em DataSet / DataFrame no Spark

Estou tentando receber dados de streaming dekafka. Nesse processo, sou capaz de receber e armazenar os dados de streaming emJavaPairInputDStream. Agora eu preciso analisar esses dados sem armazená-los em qualquer banco de ...

1 a resposta

configure spark.streaming.kafka.maxRatePerPartition para createDirectStream

Preciso aumentar a taxa de entrada por partição para meu aplicativo e uso.set("spark.streaming.kafka.maxRatePerPartition",100) para a configuração. A duração do fluxo é de 10s, então espero que o processo5*100*10=5000 mensagens para este lote. No ...

2 a resposta

O valor da configuração "spark.yarn.executor.memoryOverhead"?

O valor despark.yarn.executor.memoryOverhead em um trabalho do Spark com YARN deve ser alocado para o aplicativo ou apenas o valor máximo?

1 a resposta

No Spark Streaming, existe uma maneira de detectar quando um lote termina?

Eu uso o Spark 1.6.0 com o Cloudera 5.8.3. eu tenho umDStream objeto e muitas transformações definidas em cima dele, val stream = KafkaUtils.createDirectStream[...](...) val mappedStream = stream.transform { ... }.map { ... } ...

1 a resposta

Exceção no encadeamento "main" java.lang.NoClassDefFoundError: org / spark_project / guava / cache / CacheLoader

Quando estou tentando executar meu projeto kafka spark. Estou recebendo o erro abaixo: Exception in thread "main" java.lang.NoClassDefFoundError: org/spark_project/guava/cache/CacheLoader ...

1 a resposta

Não é possível manter o DStream para uso no próximo lote

JavaRDD<String> history_ = sc.emptyRDD(); java.util.Queue<JavaRDD<String> > queue = new LinkedList<JavaRDD<String>>(); queue.add(history_); JavaDStream<String> history_dstream = ssc.queueStream(queue); JavaPairDStream<String,ArrayList<String>> ...

1 a resposta

Como os RDDs históricos são preservados para uso posterior no código fornecido

{ var history: RDD[(String, List[String]) = sc.emptyRDD() val dstream1 = ... val dstream2 = ... val historyDStream = dstream1.transform(rdd => rdd.union(history)) val joined = historyDStream.join(dstream2) ... do stuff with joined as above, ...

2 a resposta

Como gravar a saída do Spark Streaming no HDFS sem substituir

Após algum processamento, tenho um DStream [String, ArrayList [String]]; portanto, quando eu estou gravando em hdfs usando saveAsTextFile e depois de cada lote, os dados são substituídos; portanto, como gravar um novo resultado acrescentando ...

1 a resposta

Acessando a coleção de DStreams

Estou tentando acessar uma coleção de DStreams filtrados obtidos como na solução para esta pergunta:Spark Streaming - Melhor maneira de dividir o fluxo de entrada com base no filtro ...