Resultados da pesquisa a pedido "spark-streaming"

1 a resposta

O streaming de faíscas funciona com "cp" e "mv"

Estou usando o spark streaming Meu programa lê continuamente fluxos de uma pasta hadoop. O problema é que, se eu copiar para minha pasta hadoop (hadoop fs -copyFromLocal), o trabalho do spark será iniciado, mas se eu mover (hadoop fs -mv / ...

2 a resposta

obter tópico da mensagem kafka no spark

Em nosso trabalho de streaming de faísca, lemos mensagens em streaming de kafka. Para isso, usamos oKafkaUtils.createDirectStream API que retornaJavaPairInputDStreamfrom. As mensagens são lidas do kafka (de três tópicos - test1, test2, test3) ...

0 a resposta

Prepare a instrução em lote para armazenar todo o rdd no mysql gerado a partir do spark-streaming

Estou tentando inserir os RDDs de lote gerados a partir do Dstream usando spark-streaming no mysql. O código a seguir funciona bem, mas o problema é que estou criando uma conexão para armazenar cada tupla. Portanto, para evitar que eu criei a ...

2 a resposta

Spark Streaming: como não reiniciar o receptor após a falha do receptor

Estamos usando um receptor spark personalizado que lê dados transmitidos de um link http fornecido. Se o link http fornecido estiver incorreto, o receptor falhará. O problema é que o spark reiniciará continuamente o receptor e o aplicativo nunca ...

1 a resposta

Partições de tópico Kafka no Spark streaming

Eu tenho alguns casos de uso que gostaria de ser mais esclarecido sobre o particionamento de tópicos do Kafka -> utilização de recursos de streaming de faísca. Eu uso o modo independente do spark, portanto, apenas as configurações que tenho são ...

1 a resposta

Leia o tópico Kafka em uma tarefa em lote do Spark

Estou escrevendo um trabalho em lotes Spark (v1.6.0) que lê de um tópico Kafka. Para isso eu posso usarorg.apache.spark.streaming.kafka.KafkaUtils#createRDD no entanto, preciso definir os deslocamentos para todas as partições e ...

4 a resposta

Spark Dataframe validando nomes de colunas para gravações em parquet (scala)

Estou processando eventos usando Dataframes convertidos de um fluxo de eventos JSON que, eventualmente, são gravados no formato Parquet. No entanto, alguns dos eventos JSON contêm espaços nas chaves que eu quero registrar e filtrar / descartar ...

1 a resposta

Pool de conexão em um aplicativo pyspark de streaming

Qual é a maneira correta de usar pools de conexão em um aplicativo pyspark de streaming? Eu li ...

1 a resposta

java.io.NotSerializableException no Spark Streaming com ponto de verificação ativado

código abaixo: def main(args: Array[String]) { val sc = new SparkContext val sec = Seconds(3) val ssc = new StreamingContext(sc, sec) ssc.checkpoint("./checkpoint") val rdd = ssc.sparkContext.parallelize(Seq("a","b","c")) val inputDStream = ...

2 a resposta

O foreachRDD é executado no driver?

Estou tentando processar alguns dados XML recebidos em uma fila JMS (QPID) usando o Spark Streaming. Depois de obter o xml como DStream, eu os converto em Dataframes para que eu possa juntá-los a alguns dos meus dados estáticos na forma de ...