Resultados da pesquisa a pedido "spark-streaming"

2 a resposta

Não foi possível encontrar líderes para Set ([TOPICNNAME, 0])) Quando estamos no Apache Saprk

Estamos usando o Apache Spark 1.5.1 e kafka_2.10-0.8.2.1 e a API Kafka DirectStream para buscar dados do Kafka usando o Spark. Criamos os tópicos em Kafka com as seguintes configurações ReplicationFactor: 1 e réplica: 1 Quando todas as ...

2 a resposta

Spark: processando vários tópicos kafka em paralelo

estou usandospark 1.5.2. Preciso executar o trabalho de streaming de faísca com o kafka como fonte de streaming. Preciso ler de vários tópicos no kafka e processar cada tópico de maneira diferente. É uma boa ideia fazer isso no mesmo trabalho? ...

1 a resposta

spark-submit: --jars não funciona

Como estou construindo um sistema de métricas para o trabalho do Spark Streaming, no sistema, as métricas são coletadas em cada executor; portanto, uma fonte de métricas (uma classe usada para coletar métricas) precisa ser inicializada em cada ...

3 a resposta

Como passar dados do Kafka para o Spark Streaming?

Estou tentando passar dados de kafka para desencadear streaming. Isto é o que eu fiz até agora: Instalou amboskafka esparkComeçadozookeeper com configuração de propriedades padrãoComeçadokafka server com configuração de propriedades ...

1 a resposta

Problemas de confiabilidade com o Checkpointing / WAL no Spark Streaming 1.6.0

DescriçãoTemos um aplicativo Spark Streaming 1.5.2 no Scala que lê eventos JSON de um Kinesis Stream, faz algumas transformações / agregações e grava os resultados em diferentes prefixos S3. O intervalo atual do lote é de 60 segundos. Temos ...

3 a resposta

Interface do usuário do Spark mostrando 0 núcleos, mesmo ao definir núcleos no aplicativo

Estou tendo um problema estranho com a execução de um aplicativo fora do URL mestre do spark, em que a interface do usuário está relatando um "STATE" de "WAITING" indefinidamente, pois 0 núcleos estão aparecendo na tabela RUNNING APPLICATIONs, ...

1 a resposta

Spark Streaming: Como posso adicionar mais partições ao meu DStream?

Eu tenho um aplicativo de streaming de centelha que se parece com isso: val message = KafkaUtils.createStream(...).map(_._2) message.foreachRDD( rdd => { if (!rdd.isEmpty){ val kafkaDF = sqlContext.read.json(rdd) kafkaDF.foreachPartition( i =>{ ...

6 a resposta

Como converter dados do Spark Streaming em Spark DataFrame

Até agora, o Spark não criou o DataFrame para transmitir dados, mas quando estou detectando anomalias, é mais conveniente e rápido usar o DataFrame para análise de dados. Eu fiz essa parte, mas quando tento fazer a detecção de anomalias em tempo ...

2 a resposta

O mapWithState do Spark Streaming parece reconstruir o estado completo periodicamente

Estou trabalhando em um projeto de streaming Scala (2.11) / Spark (1.6.1) e usandomapWithState() para acompanhar os dados vistos dos lotes anteriores. O estado é distribuído em 20 partições em vários nós, ...

2 a resposta

INFO continuamente JobScheduler: 59 - Trabalhos adicionados por tempo *** ms no meu cluster independente Spark

Estamos trabalhando com o Spark Standalone Cluster com 8 núcleos e 32 GB de RAM, com cluster de 3 nós com a mesma configuração. Algumas vezes, o lote de streaming é concluído em menos de 1 segundo. algumas vezes, leva mais de 10 segundos e o log ...