Resultados da pesquisa a pedido "apache-spark"

1 a resposta

Quais são os arquivos gerados pelo Spark ao usar “saveAsTextFile”?

Quando executo um trabalho do Spark e salvo a saída como um arquivo de texto usando o método "saveAsTextFile", conforme especificado ...

3 a resposta

Faísca no topo do Docker não aceita trabalhos

Estou tentando fazer um exemplo de olá mundo funcionar com o spark + docker, e aqui está o meu código. object Generic { def main(args: Array[String]) { val sc = new SparkContext("spark://172.17.0.3:7077", "Generic", "/opt/spark-0.9.0") ...

1 a resposta

Escreva e leia matrizes de bytes brutos no Spark - usando o arquivo de sequência SequenceFile

Como você escreveRDD[Array[Byte]] para um arquivo usando o Apache Spark e lê-lo novamente?

2 a resposta

java + spark: org.apache.spark.SparkException: Trabalho cancelado: Tarefa não serializável: java.io.NotSerializableException

Eu sou novo no spark, e estava tentando executar o exemplo JavaSparkPi.java, ele funciona bem, mas como tenho que usá-lo em outro java s copio todas as coisas de main para um método na classe e tento chamar o método principal, ...

9 a resposta

Como ler a entrada do S3 em um aplicativo de cluster Spark Streaming EC2

Estou tentando fazer meu aplicativo Spark Streaming ler sua entrada de um diretório S3, mas continuo recebendo essa exceção depois de iniciá-la com o script de envio de spark: Exception in thread "main" java.lang.IllegalArgumentException: AWS ...

3 a resposta

Usando o reduzByKey no Apache Spark (Scala)

Eu tenho uma lista de tuplas do tipo: (identificação do usuário, nome, contagem). Por exemplo, val x = sc.parallelize(List( ("a", "b", 1), ("a", "b", 1), ("c", "b", 1), ("a", "d", 1)) )Estou tentando reduzir essa coleção para um tipo em que ...

10 a resposta

Grave em várias saídas com a chave Spark - um trabalho do Spark

Como você pode gravar em várias saídas dependentes da chave usando o Spark em um único trabalho. Relacionado:Grave em várias saídas com a chave Scalding Hadoop, uma ...

1 a resposta

Como tornar mais fácil implantar meu Jar no Spark Cluster no modo autônomo?

Eu tenho um pequeno cluster com 3 máquinas e outra máquina para desenvolvimento e teste. Ao desenvolver, definoSparkContext paralocal. Quando tudo estiver correto, desejo implantar o arquivo Jar criado em cada nó. Basicamente, movo manualmente ...

3 a resposta

Qual é a maneira eficiente de atualizar valor dentro do RDD do Spark?

Estou escrevendo um programa relacionado a gráficos emScala comSpark. O conjunto de dados possui 4 milhões de nós e 4 milhões de bordas (você pode tratar isso como uma árvore), mas para cada vez (umIteration), Edito apenas uma parte dele, ou ...

1 a resposta

Como fazer com que o Spark Streaming escreva sua saída para que o Impala possa lê-la?

Eu tenho o seguinte problema com a API de streaming do Spark. Atualmente, estou transmitindo dados de entrada via Flume para Spark Streaming, com o qual pretendo fazer um pré-processamento para os dados. Em seguida, gostaria de salvar os dados no ...