Resultados da pesquisa a pedido "apache-spark"

2 a resposta

Processar o Spark Streaming rdd e armazenar em um único arquivo HDFS

Estou usando o Kafka Spark Streaming para obter dados de streaming. val lines = KafkaUtils.createDirectStream[Array[Byte], String, DefaultDecoder, StringDecoder](ssc, kafkaConf, Set(topic)).map(_._2)Estou usando este DStream e processando ...

1 a resposta

Hive UDF para selecionar todas, exceto algumas colunas

O padrão de criação de consulta comum no HiveQL (e SQL em geral) é selecionar todas as colunas (SELECT *) ou um conjunto de colunas explicitamente especificado (SELECT A, B, C) O SQL não possui mecanismo interno para selecionar todas, exceto um ...

2 a resposta

Como adicionar uma nova coluna Struct a um DataFrame

Atualmente, estou tentando extrair um banco de dados do MongoDB e usar o Spark para inserir no ElasticSearch comgeo_points. O banco de dados Mongo possui valores de latitude e longitude, mas o ElasticSearch exige que eles sejam convertidos ...

1 a resposta

erro: não encontrado: valor sc

Eu sou novo no Scala e estou tentando codificar a leitura de um arquivo usando o código a seguir scala> val textFile = sc.textFile("README.md") scala> textFile.count()Mas continuo recebendo o seguinte erro error: not found: value scEu tentei de ...

3 a resposta

Tempo de iteração de faísca aumentando exponencialmente ao usar junção

Eu sou bastante novo no Spark e estou tentando implementar algum algoritmo iterativo para cluster (maximização de expectativa) com o centróide representado pelo modelo de Markov. Então, eu preciso fazer iterações e associações. Um problema que ...

2 a resposta

O que é o atraso do agendador na linha do tempo do evento da interface do usuário do spark

Estou usando o ambiente YARN para executar programas spark, com a opção--master yarn-cluster. Quando abro o mestre de aplicativos de um aplicativo spark, vi muitosScheduler Delay em um estágio. Alguns deles são ainda mais de 10 minutos. Eu me ...

5 a resposta

Substituição SPARK SQL para a função agregada mysql GROUP_CONCAT

Eu tenho uma tabela de duas colunas do tipo string (nome de usuário, amigo) e, para cada nome de usuário, quero coletar todos os seus amigos em uma linha, concatenados como strings ('nome de usuário1', 'amigos1, amigos2, amigos3'). Eu sei que o ...

1 a resposta

Erro 'Conexão recusada' ao executar o Spark Streaming na máquina local

Eu sei que já existem muitos tópicos sobre problemas de "conexão de streaming com faísca recusada". Mas a maioria deles está no Linux ou, pelo menos, aponta para o HDFS. Estou executando isso no meu laptop local com Windows. Estou executando um ...

2 a resposta

Apache Spark leva de 5 a 6 minutos para contagem simples de 1 bilhão de linhas de Cassandra

Estou usando o conector Spark Cassandra. Demora de 5 a 6 minutos para buscar dados da tabela Cassandra. No Spark, eu já vi muitas tarefas e Executor no log. O motivo pode ser que o Spark tenha dividido o processo em muitas tarefas! Abaixo está o ...

2 a resposta

Como lidar com entradas nulas no SparkR

Eu tenho um SparkSQL DataFrame. Algumas entradas nesses dados estão vazias, mas não se comportam como NULL ou NA. Como eu poderia removê-los? Alguma ideia? No R eu posso removê-los facilmente, mas no sparkR diz-se que há um problema com o ...