Resultados da pesquisa a pedido "apache-spark"

1 a resposta

Qual é a diferença entre uma partição RDD e uma fatia?

oGuia de programação do Spark [http://spark.apache.org/docs/latest/scala-programming-guide.html]menciona fatias como um recurso de RDDs (coleções paralelas ou conjuntos de dados Hadoop.) ("O Spark executará uma tarefa para cada fatia do ...

1 a resposta

Instalando o Apache Spark no Windows

Eu preciso instalarApache Spark [http://spark.apache.org/]em uma máquina Windows. De acordo com a documentação, eu deveria ter o sbt instalado na minha máquina e também substituir suas opções padrão para usar no máximo 2G de RAM. Depois de ...

1 a resposta

Como os trabalhos são atribuídos aos executores no Spark Streaming?

Digamos que eu tenha 2 ou mais executores em um aplicativo Spark Streaming. Defina o tempo de lote de 10 segundos, para que um trabalho seja iniciado a cada 10 segundos lendo a entrada do meu HDFS. Se todo trabalho durar mais de 10 segundos, o ...

1 a resposta

Exceção EOF do Apache Spark

Estou recebendo uma EOFException ao executar um trabalho simples que lê um arquivo de texto e coleta os resultados. Isso funciona bem na minha máquina de desenvolvimento, mas falha ao executá-la no modo autônomo (máquina única, mestre + ...

1 a resposta

Quais são os arquivos gerados pelo Spark ao usar “saveAsTextFile”?

Quando executo um trabalho do Spark e salvo a saída como um arquivo de texto usando o método "saveAsTextFile", conforme especificado ...

1 a resposta

Como tornar mais fácil implantar meu Jar no Spark Cluster no modo autônomo?

Eu tenho um pequeno cluster com 3 máquinas e outra máquina para desenvolvimento e teste. Ao desenvolver, definoSparkContext paralocal. Quando tudo estiver correto, desejo implantar o arquivo Jar criado em cada nó. Basicamente, movo manualmente ...

1 a resposta

Escreva e leia matrizes de bytes brutos no Spark - usando o arquivo de sequência SequenceFile

Como você escreveRDD[Array[Byte]] para um arquivo usando o Apache Spark e lê-lo novamente?

1 a resposta

Como fazer com que o Spark Streaming escreva sua saída para que o Impala possa lê-la?

Eu tenho o seguinte problema com a API de streaming do Spark. Atualmente, estou transmitindo dados de entrada via Flume para Spark Streaming, com o qual pretendo fazer um pré-processamento para os dados. Em seguida, gostaria de salvar os dados no ...

1 a resposta

A função de mapa do RDD não está sendo chamada no Scala Spark

Quando eu chamo a função de mapa de um RDD não está sendo aplicada. Funciona como esperado para uma lista scala.collection.immutable.List, mas não para um RDD. Aqui está um código para ilustrar: val list = List ("a" , "d" , "c" , "d") list.map(l ...

1 a resposta

Apache Spark - MlLib - Filtragem colaborativa

Estou tentando usar o MlLib para minha filtragem coloborativa. Encontro o seguinte erro no meu programa Scala quando o executo no Apache Spark 1.0.0. 14/07/15 16:16:31 WARN NativeCodeLoader: Unable to load native-hadoop library for your ...