Resultados da pesquisa a pedido "apache-spark"

Estou usando o Kafka Spark Streaming para obter dados de streaming. val lines = KafkaUtils.createDirectStream[Array[Byte], String, DefaultDecoder, StringDecoder](ssc, kafkaConf, Set(topic)).map(_._2)Estou usando este DStream e processando ...

hive hiveql udf apache-spark-sql

1 a resposta

Hive UDF para selecionar todas, exceto algumas colunas

O padrão de criação de consulta comum no HiveQL (e SQL em geral) é selecionar todas as colunas (SELECT *) ou um conjunto de colunas explicitamente especificado (SELECT A, B, C) O SQL não possui mecanismo interno para selecionar todas, exceto um ...

etl apache-spark-sql scala elasticsearch

2 a resposta

Como adicionar uma nova coluna Struct a um DataFrame

Atualmente, estou tentando extrair um banco de dados do MongoDB e usar o Spark para inserir no ElasticSearch comgeo_points. O banco de dados Mongo possui valores de latitude e longitude, mas o ElasticSearch exige que eles sejam convertidos ...

scala

1 a resposta

erro: não encontrado: valor sc

Eu sou novo no Scala e estou tentando codificar a leitura de um arquivo usando o código a seguir scala> val textFile = sc.textFile("README.md") scala> textFile.count()Mas continuo recebendo o seguinte erro error: not found: value scEu tentei de ...

python loops iteration pyspark

3 a resposta

Tempo de iteração de faísca aumentando exponencialmente ao usar junção

Eu sou bastante novo no Spark e estou tentando implementar algum algoritmo iterativo para cluster (maximização de expectativa) com o centróide representado pelo modelo de Markov. Então, eu preciso fazer iterações e associações. Um problema que ...

2 a resposta

O que é o atraso do agendador na linha do tempo do evento da interface do usuário do spark

Estou usando o ambiente YARN para executar programas spark, com a opção--master yarn-cluster. Quando abro o mestre de aplicativos de um aplicativo spark, vi muitosScheduler Delay em um estágio. Alguns deles são ainda mais de 10 minutos. Eu me ...

aggregate-functions apache-spark-sql

5 a resposta

Substituição SPARK SQL para a função agregada mysql GROUP_CONCAT

Eu tenho uma tabela de duas colunas do tipo string (nome de usuário, amigo) e, para cada nome de usuário, quero coletar todos os seus amigos em uma linha, concatenados como strings ('nome de usuário1', 'amigos1, amigos2, amigos3'). Eu sei que o ...

scala spark-streaming

1 a resposta

Erro 'Conexão recusada' ao executar o Spark Streaming na máquina local

Eu sei que já existem muitos tópicos sobre problemas de "conexão de streaming com faísca recusada". Mas a maioria deles está no Linux ou, pelo menos, aponta para o HDFS. Estou executando isso no meu laptop local com Windows. Estou executando um ...

cassandra java spark-cassandra-connector

2 a resposta

Apache Spark leva de 5 a 6 minutos para contagem simples de 1 bilhão de linhas de Cassandra

Estou usando o conector Spark Cassandra. Demora de 5 a 6 minutos para buscar dados da tabela Cassandra. No Spark, eu já vi muitas tarefas e Executor no log. O motivo pode ser que o Spark tenha dividido o processo em muitas tarefas! Abaixo está o ...

sparkr apache-spark-1.4 r

2 a resposta

Como lidar com entradas nulas no SparkR

Eu tenho um SparkSQL DataFrame. Algumas entradas nesses dados estão vazias, mas não se comportam como NULL ou NA. Como eu poderia removê-los? Alguma ideia? No R eu posso removê-los facilmente, mas no sparkR diz-se que há um problema com o ...

Página 115 do 167

113 114115116 117

Resultados da pesquisa a pedido "apache-spark"

Processar o Spark Streaming rdd e armazenar em um único arquivo HDFS

Hive UDF para selecionar todas, exceto algumas colunas

Como adicionar uma nova coluna Struct a um DataFrame

Tags populares

erro: não encontrado: valor sc

Tempo de iteração de faísca aumentando exponencialmente ao usar junção

O que é o atraso do agendador na linha do tempo do evento da interface do usuário do spark

Substituição SPARK SQL para a função agregada mysql GROUP_CONCAT

Erro 'Conexão recusada' ao executar o Spark Streaming na máquina local

Apache Spark leva de 5 a 6 minutos para contagem simples de 1 bilhão de linhas de Cassandra

Como lidar com entradas nulas no SparkR

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "apache-spark"

Tags populares