Resultados da pesquisa a pedido "spark-streaming"
O streaming de faíscas funciona com "cp" e "mv"
Estou usando o spark streaming Meu programa lê continuamente fluxos de uma pasta hadoop. O problema é que, se eu copiar para minha pasta hadoop (hadoop fs -copyFromLocal), o trabalho do spark será iniciado, mas se eu mover (hadoop fs -mv / ...
obter tópico da mensagem kafka no spark
Em nosso trabalho de streaming de faísca, lemos mensagens em streaming de kafka. Para isso, usamos oKafkaUtils.createDirectStream API que retornaJavaPairInputDStreamfrom. As mensagens são lidas do kafka (de três tópicos - test1, test2, test3) ...
Prepare a instrução em lote para armazenar todo o rdd no mysql gerado a partir do spark-streaming
Estou tentando inserir os RDDs de lote gerados a partir do Dstream usando spark-streaming no mysql. O código a seguir funciona bem, mas o problema é que estou criando uma conexão para armazenar cada tupla. Portanto, para evitar que eu criei a ...
Spark Streaming: como não reiniciar o receptor após a falha do receptor
Estamos usando um receptor spark personalizado que lê dados transmitidos de um link http fornecido. Se o link http fornecido estiver incorreto, o receptor falhará. O problema é que o spark reiniciará continuamente o receptor e o aplicativo nunca ...
Partições de tópico Kafka no Spark streaming
Eu tenho alguns casos de uso que gostaria de ser mais esclarecido sobre o particionamento de tópicos do Kafka -> utilização de recursos de streaming de faísca. Eu uso o modo independente do spark, portanto, apenas as configurações que tenho são ...
Leia o tópico Kafka em uma tarefa em lote do Spark
Estou escrevendo um trabalho em lotes Spark (v1.6.0) que lê de um tópico Kafka. Para isso eu posso usarorg.apache.spark.streaming.kafka.KafkaUtils#createRDD no entanto, preciso definir os deslocamentos para todas as partições e ...
Spark Dataframe validando nomes de colunas para gravações em parquet (scala)
Estou processando eventos usando Dataframes convertidos de um fluxo de eventos JSON que, eventualmente, são gravados no formato Parquet. No entanto, alguns dos eventos JSON contêm espaços nas chaves que eu quero registrar e filtrar / descartar ...
Pool de conexão em um aplicativo pyspark de streaming
Qual é a maneira correta de usar pools de conexão em um aplicativo pyspark de streaming? Eu li ...
java.io.NotSerializableException no Spark Streaming com ponto de verificação ativado
código abaixo: def main(args: Array[String]) { val sc = new SparkContext val sec = Seconds(3) val ssc = new StreamingContext(sc, sec) ssc.checkpoint("./checkpoint") val rdd = ssc.sparkContext.parallelize(Seq("a","b","c")) val inputDStream = ...
O foreachRDD é executado no driver?
Estou tentando processar alguns dados XML recebidos em uma fila JMS (QPID) usando o Spark Streaming. Depois de obter o xml como DStream, eu os converto em Dataframes para que eu possa juntá-los a alguns dos meus dados estáticos na forma de ...