Resultados da pesquisa a pedido "apache-spark"
Qual é a diferença entre uma partição RDD e uma fatia?
oGuia de programação do Spark [http://spark.apache.org/docs/latest/scala-programming-guide.html]menciona fatias como um recurso de RDDs (coleções paralelas ou conjuntos de dados Hadoop.) ("O Spark executará uma tarefa para cada fatia do ...
Instalando o Apache Spark no Windows
Eu preciso instalarApache Spark [http://spark.apache.org/]em uma máquina Windows. De acordo com a documentação, eu deveria ter o sbt instalado na minha máquina e também substituir suas opções padrão para usar no máximo 2G de RAM. Depois de ...
Como os trabalhos são atribuídos aos executores no Spark Streaming?
Digamos que eu tenha 2 ou mais executores em um aplicativo Spark Streaming. Defina o tempo de lote de 10 segundos, para que um trabalho seja iniciado a cada 10 segundos lendo a entrada do meu HDFS. Se todo trabalho durar mais de 10 segundos, o ...
Exceção EOF do Apache Spark
Estou recebendo uma EOFException ao executar um trabalho simples que lê um arquivo de texto e coleta os resultados. Isso funciona bem na minha máquina de desenvolvimento, mas falha ao executá-la no modo autônomo (máquina única, mestre + ...
Quais são os arquivos gerados pelo Spark ao usar “saveAsTextFile”?
Quando executo um trabalho do Spark e salvo a saída como um arquivo de texto usando o método "saveAsTextFile", conforme especificado ...
Como tornar mais fácil implantar meu Jar no Spark Cluster no modo autônomo?
Eu tenho um pequeno cluster com 3 máquinas e outra máquina para desenvolvimento e teste. Ao desenvolver, definoSparkContext paralocal. Quando tudo estiver correto, desejo implantar o arquivo Jar criado em cada nó. Basicamente, movo manualmente ...
Escreva e leia matrizes de bytes brutos no Spark - usando o arquivo de sequência SequenceFile
Como você escreveRDD[Array[Byte]] para um arquivo usando o Apache Spark e lê-lo novamente?
Como fazer com que o Spark Streaming escreva sua saída para que o Impala possa lê-la?
Eu tenho o seguinte problema com a API de streaming do Spark. Atualmente, estou transmitindo dados de entrada via Flume para Spark Streaming, com o qual pretendo fazer um pré-processamento para os dados. Em seguida, gostaria de salvar os dados no ...
A função de mapa do RDD não está sendo chamada no Scala Spark
Quando eu chamo a função de mapa de um RDD não está sendo aplicada. Funciona como esperado para uma lista scala.collection.immutable.List, mas não para um RDD. Aqui está um código para ilustrar: val list = List ("a" , "d" , "c" , "d") list.map(l ...
Apache Spark - MlLib - Filtragem colaborativa
Estou tentando usar o MlLib para minha filtragem coloborativa. Encontro o seguinte erro no meu programa Scala quando o executo no Apache Spark 1.0.0. 14/07/15 16:16:31 WARN NativeCodeLoader: Unable to load native-hadoop library for your ...