Resultados da pesquisa a pedido "spark-streaming"
Processar o Spark Streaming rdd e armazenar em um único arquivo HDFS
Estou usando o Kafka Spark Streaming para obter dados de streaming. val lines = KafkaUtils.createDirectStream[Array[Byte], String, DefaultDecoder, StringDecoder](ssc, kafkaConf, Set(topic)).map(_._2)Estou usando este DStream e processando ...
Hive Crie vários arquivos pequenos para cada inserção no HDFS
o seguinte já foi alcançado Produtor Kafka que extrai dados do twitter usando o Spark Streaming.Consumidor Kafka que ingere dados na tabela Hive External (no HDFS).enquanto isso está funcionando bem até agora. há apenas um problema que estou ...
Solte o quadro de dados spark do cache
Estou usando o Spark 1.3.0 com python api. Ao transformar grandes quadros de dados, eu armazeno em cache muitos DFs para uma execução mais rápida; df1.cache() df2.cache()Depois que o uso de determinado dataframe termina e não é mais necessário, ...
Haverá algum cenário em que o Spark RDD não consiga satisfazer a imutabilidade.?
Os RDDs Spark são construídos de maneira imutável, tolerante a falhas e resiliente. Os RDDs atendem à imutabilidade em todos os cenários? Ou há algum caso, seja em Streaming ou Core, onde o RDD pode falhar em satisfazer a imutabilidade?
Lendo de Cassandra usando Spark Streaming
Tenho um problema quando uso o spark streaming para ler a partir de ...
Como usar o Scala e o Python em um mesmo projeto Spark?
É possível canalizarSpark RDDpara Python? Porque eu preciso de uma biblioteca python para fazer algum cálculo nos meus dados, mas meu principal projeto Spark é baseado no Scala. Existe uma maneira de misturar os dois ou permitir que o python ...
Spark Streaming no EC2: exceção no segmento "main" java.lang.ExceptionInInitializerError
Estou tentando executar o envio de spark em um arquivo jar que eu criei. Quando o executo localmente na minha máquina, ele funciona corretamente, mas quando implantado no Amazon EC2, ele retorna o seguinte erro. root@ip-172-31-47-217 bin]$ ...
O trabalhador do Spark não pode se conectar ao mestre
Ao iniciar o nó do trabalhador, recebo o seguinte erro: Spark Command: /usr/lib/jvm/default-java/bin/java ...
Tratamento de exceções não capturadas no Spark
Estou trabalhando em um aplicativo Spark Streaming baseado em Java que responde a mensagens que vêm de um tópico Kafka. Para cada mensagem, o aplicativo faz algum processamento e grava de volta os resultados em um tópico Kafka diferente. Às ...
Como posso atualizar uma variável de transmissão no spark streaming?
Acredito que tenho um caso de uso relativamente comum para o streaming de faíscas: Eu tenho um fluxo de objetos que gostaria de filtrar com base em alguns dados de referência Inicialmente, pensei que isso seria uma coisa muito simples de ...