Resultados da pesquisa a pedido "apache-spark"
Gravando um RDD em um CSV
Eu tenho um RDD que é da forma org.apache.spark.rdd.RDD[(String, Array[String])]Eu quero escrever isso em um arquivo CSV. Por favor, sugira-me como isso pode ser feito. Fazer myrdd.saveAsTextFile on fornece a saída como ...
Consultando Spark SQL DataFrame com tipos complexos
Como posso consultar um RDD com tipos complexos, como mapas / matrizes? por exemplo, quando eu estava escrevendo este código de teste: case class Test(name: String, map: Map[String, String]) val map = Map("hello" -> "world", "hey" -> "there") ...
Utilitários de erro: exceção não capturada no segmento SparkListenerBus
Eu tento executar um projeto simples com o Apache Spark. Este é o meu código SimpleApp.scala /* SimpleApp.scala */ import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.spark.SparkConf object SimpleApp { ...
Erro do Apache Spark: Não foi possível conectar-se ao akka.tcp: // sparkMaster @
Estes são os nossos primeiros passos usando coisas de big data, como apache spark e hadoop. Temos um Cloudera CDH 5.3 instalado. No gerenciador de cloudera, escolhemos instalar o spark. O Spark está funcionando muito bem em um dos nós no ...
Como registrar usando log4j no sistema de arquivos local dentro de um aplicativo Spark que é executado no YARN?
Estou criando um aplicativo Apache Spark Streaming e não consigo fazer logon em um arquivo no sistema de arquivos localao executá-lo no YARN. Como conseguir isso? Eu configureilog4.properties para que ele possa gravar com êxito em um arquivo de ...
Como criar o Spark 1.2 com o Maven (fornece java.io.IOException: Não é possível executar o programa “javac”)?
Estou tentando criar o Spark 1.2 com o Maven. Meu objetivo é usar o PySpark com o YARN no Hadoop 2.2. Vi que isso só era possível com o Spark com o Maven. Primeiro, isso é verdade? Se for verdade, qual é o problema no log abaixo? Como faço para ...
leitura e gravação de tabelas de colméia com faísca após agregação
Temos um armazém de colméias e queríamos usar o spark para várias tarefas (principalmente classificação). Às vezes, escreva os resultados de volta como uma tabela de seção. Por exemplo, escrevemos a seguinte função python para encontrar a soma ...
Por que o Apache Spark aceita a função não paralela?
Leia o guia Apache Spark em http://spark.apache.org/docs/latest/programming-guide.html [http://spark.apache.org/docs/latest/programming-guide.html]declara: Por que a função take não é executada em paralelo? Quais são as dificuldades ...
O que é memória reservada no fio
Consegui iniciar um aplicativo spark no Yarn. No entanto, o uso de emory é meio estranho, como você pode ver abaixo: http://imgur.com/1k6VvSI [http://imgur.com/1k6VvSI] O que significa memória reservada? Como posso usar com eficiência toda a ...
Como abrir / transmitir arquivos .zip através do Spark?
Eu tenho arquivos zip que eu gostaria de abrir 'através' do Spark. Não consigo abrir o arquivo .gzip por causa do suporte nativo ao Codec do Hadoops, mas não consigo fazer isso com os arquivos .zip. Existe uma maneira fácil de ler um arquivo zip ...