Resultados da pesquisa a pedido "apache-spark"
Como executar a inicialização no spark?
Quero realizar pesquisas geoip dos meus dados no spark. Para fazer isso, estou usando o banco de dados geoIP do MaxMind. O que eu quero fazer é inicializar um objeto de banco de dados geoip uma vez em cada partição e depois usá-lo para pesquisar ...
Spark: aumentar o número de partições sem causar um shuffle?
Ao diminuir o número de partições, pode-se usarcoalesce, o que é ótimo porque não causa uma aleatória e parece funcionar instantaneamente (não requer uma etapa de trabalho adicional). Eu gostaria de fazer o oposto às vezes, masrepartition induz ...
Spark: Como ingressar em RDDs por intervalo de tempo
Eu tenho um delicado problema do Spark, onde simplesmente não consigo entender. Temos dois RDDs (vindos de Cassandra). RDD1 contémActions e RDD2 contémHistoric dados. Ambos têm um ID no qual eles podem ser correspondidos / unidos. Mas o problema ...
Como suprimir o log do Spark em testes de unidade?
Então, graças aos blogs facilmente acessíveis, tentei: import org.specs2.mutable.Specification class SparkEngineSpecs extends Specification { sequential def setLogLevels(level: Level, loggers: Seq[String]): Map[String, Level] = ...
apache spark MLLib: como construir pontos rotulados para recursos de string?
Estou tentando criar um classificador NaiveBayes com o MLLib do Spark, que usa como entrada um conjunto de documentos. Gostaria de colocar algumas coisas como recursos (ou seja, autores, tags explícitas, palavras-chave implícitas, categoria), ...
Como carregar o arquivo local no sc.textFile, em vez do HDFS
Eu estou seguindo o grandetutorial faísca [https://www.youtube.com/watch?v=VWeWViFCzzg] então eu estou tentando 46m: 00s para carregar oREADME.md mas falha no que estou fazendo é o seguinte: $ sudo docker run -i -t -h sandbox ...
Erro de dependência do Mllib
Estou tentando criar um aplicativo autônomo scala muito simples usando o Mllib, mas recebo o seguinte erro ao tentar aumentar o programa: Object Mllib is not a member of package org.apache.sparkEntão, percebi que tinha que adicionar o Mllib como ...
Por que o Spark falha com o limite de java.lang.OutOfMemoryError: GC excedido?
Estou tentando implementar um trabalho Hadoop Map / Reduce que funcionou bem antes no Spark. A definição do aplicativo Spark é a seguinte: val data = spark.textFile(file, 2).cache() val result = data .map(//some pre-processing) .map(docWeightPar ...
Apache Spark - Lidando com janelas deslizantes em RDDs temporais
Eu tenho trabalhado bastante com o Apache Spark nos últimos meses, mas agora recebi uma tarefa bastante difícil: calcular etc / média média / mínima / máxima em uma janela deslizante sobre uma janela emparelhadaRDD onde o componente Key é uma tag ...
Como processar registros de entrada de várias linhas no Spark
Eu tenho cada registro espalhado por várias linhas no arquivo de entrada (arquivo muito grande). Ex: Id: 2 ASIN: 0738700123 title: Test tile for this product group: Book salesrank: 168501 similar: 5 0738700811 1567184912 1567182813 0738700514 ...