Resultados da pesquisa a pedido "spark-streaming"
O valor da configuração "spark.yarn.executor.memoryOverhead"?
O valor despark.yarn.executor.memoryOverhead em um trabalho do Spark com YARN deve ser alocado para o aplicativo ou apenas o valor máximo?
O Spark não imprime saídas no console na função map
Eu tenho um aplicativo Spark simples em execução no modo de cluster. val funcGSSNFilterHeader = (x: String) => { println(!x.contains("servedMSISDN") !x.contains("servedMSISDN") } val ssc = new StreamingContext(sc, Seconds(batchIntervalSeconds)) ...
Exceção no encadeamento "main" java.lang.NoClassDefFoundError: org / spark_project / guava / cache / CacheLoader
Quando estou tentando executar meu projeto kafka spark. Estou recebendo o erro abaixo: Exception in thread "main" java.lang.NoClassDefFoundError: org/spark_project/guava/cache/CacheLoader ...
No Spark Streaming, existe uma maneira de detectar quando um lote termina?
Eu uso o Spark 1.6.0 com o Cloudera 5.8.3. eu tenho umDStream objeto e muitas transformações definidas em cima dele, val stream = KafkaUtils.createDirectStream[...](...) val mappedStream = stream.transform { ... }.map { ... } ...
Como os RDDs históricos são preservados para uso posterior no código fornecido
{ var history: RDD[(String, List[String]) = sc.emptyRDD() val dstream1 = ... val dstream2 = ... val historyDStream = dstream1.transform(rdd => rdd.union(history)) val joined = historyDStream.join(dstream2) ... do stuff with joined as above, ...
Como gravar a saída do Spark Streaming no HDFS sem substituir
Após algum processamento, tenho um DStream [String, ArrayList [String]]; portanto, quando eu estou gravando em hdfs usando saveAsTextFile e depois de cada lote, os dados são substituídos; portanto, como gravar um novo resultado acrescentando ...
Spark Structured Streaming com integração Hbase
Estamos fazendo streaming de dados kafka que estão sendo coletados no MySQL. Agora que todas as análises estiverem concluídas, quero salvar meus dados diretamente no Hbase. Passei pelo documento de streaming estruturado do spark, mas não consegui ...
Consistir consistência de streaming estruturado entre coletores
Gostaria de entender melhor o modelo de consistência do streaming estruturado do Spark 2.2 no seguinte caso: uma fonte (Kinesis)2 consultas desta fonte para 2 coletores diferentes: um coletor de arquivos para fins de arquivamento (S3) e outro ...
API e Paralelismo de Streaming Direto Kafka do Spark-Streaming
Entendi o mapeamento automatizado que existe entre uma Partição Kafka e uma partição Spark RDD e, finalmente, a Tarefa Spark. No entanto, para dimensionar corretamente meu executor (em número de núcleos) e, portanto, em última análise, meu nó e ...
Aviso de causa UDF: CachedKafkaConsumer não está sendo executado no UninterruptibleThread (KAFKA-1894)
Em um habitualstruct_kafka_wordcount.py [https://gist.github.com/hrchu/2b2590f2f737ef430ac32b7f8edc15c0]código, Quando divido linhas em palavras porudf como abaixo, my_split = udf(lambda x: x.split(' '), ArrayType(StringType())) words ...