Resultados da pesquisa a pedido "spark-streaming"

2 a resposta

O foreachRDD é executado no driver?

Estou tentando processar alguns dados XML recebidos em uma fila JMS (QPID) usando o Spark Streaming. Depois de obter o xml como DStream, eu os converto em Dataframes para que eu possa juntá-los a alguns dos meus dados estáticos na forma de ...

1 a resposta

Lendo arquivos dinamicamente a partir do HDFS a partir das funções de transformação do spark

Como um arquivo do HDFS pode ser lido em uma função spark que não usa sparkContext dentro da função. Exemplo: val filedata_rdd = rdd.map { x => ReadFromHDFS(x.getFilePath) }Pergunta é como ReadFromHDFS pode ser implementado? Geralmente, para ...

2 a resposta

Como converter JavaPairInputDStream em DataSet / DataFrame no Spark

Estou tentando receber dados de streaming dekafka. Nesse processo, sou capaz de receber e armazenar os dados de streaming emJavaPairInputDStream. Agora eu preciso analisar esses dados sem armazená-los em qualquer banco de ...

3 a resposta

Limitar o tamanho dos lotes Kafka ao usar o Spark Streaming

É possível limitar o tamanho dos lotes retornados pelo consumidor Kafka para o Spark Streaming? Estou perguntando, porque o primeiro lote que recebo tem centenas de milhões de registros e leva muito tempo para processá-los e conferi-los.

1 a resposta

Exceção ao acessar o KafkaOffset a partir do RDD

Eu tenho um consumidor Spark que transmite de Kafka. Estou tentando gerenciar deslocamentos para a semântica exatamente uma vez. No entanto, ao acessar o deslocamento, lança a seguinte exceção: "java.lang.ClassCastException: ...

1 a resposta

Como parar de executar o aplicativo Spark Streaming graciosamente?

Como faço para parar o streaming de faíscas? Meu trabalho de streaming em faísca está sendo executado continuamente. Eu quero parar de uma maneira graciosa. Eu vi abaixo a opção para desligar o aplicativo de ...

1 a resposta

configure spark.streaming.kafka.maxRatePerPartition para createDirectStream

Preciso aumentar a taxa de entrada por partição para meu aplicativo e uso.set("spark.streaming.kafka.maxRatePerPartition",100) para a configuração. A duração do fluxo é de 10s, então espero que o processo5*100*10=5000 mensagens para este lote. No ...

2 a resposta

Como salvar / inserir cada DStream em uma tabela permanente

Estou enfrentando um problema com o "Spark Streaming" sobre a inserção do Dstream de saída em umpermanente Tabela SQL. Gostaria de inserir todos os DStream de saída (provenientes de um único lote que desencadeia processos) em uma tabela ...

2 a resposta

O SparkContext e o StreamingContext podem coexistir no mesmo programa?

Estou tentando configurar um código Sparkstreaming que lê a linha do servidor Kafka, mas o processa usando regras escritas em outro arquivo local. Estou criando streamingContext para os dados de streaming e sparkContext para outros aplicando ...

5 a resposta

Spark DataFrame: groupBy após orderBy mantém essa ordem?

Eu tenho um quadro de dados Spark 2.0example com a seguinte estrutura: id, hour, count id1, 0, 12 id1, 1, 55 .. id1, 23, 44 id2, 0, 12 id2, 1, 89 .. id2, 23, 34 etc.Ele contém 24 entradas para cada identificação (uma para cada hora do dia) e é ...