Resultados da pesquisa a pedido "apache-spark"

3 a resposta

Como executar a inicialização no spark?

Quero realizar pesquisas geoip dos meus dados no spark. Para fazer isso, estou usando o banco de dados geoIP do MaxMind. O que eu quero fazer é inicializar um objeto de banco de dados geoip uma vez em cada partição e depois usá-lo para pesquisar ...

3 a resposta

Spark: aumentar o número de partições sem causar um shuffle?

Ao diminuir o número de partições, pode-se usarcoalesce, o que é ótimo porque não causa uma aleatória e parece funcionar instantaneamente (não requer uma etapa de trabalho adicional). Eu gostaria de fazer o oposto às vezes, masrepartition induz ...

3 a resposta

Spark: Como ingressar em RDDs por intervalo de tempo

Eu tenho um delicado problema do Spark, onde simplesmente não consigo entender. Temos dois RDDs (vindos de Cassandra). RDD1 contémActions e RDD2 contémHistoric dados. Ambos têm um ID no qual eles podem ser correspondidos / unidos. Mas o problema ...

5 a resposta

Como suprimir o log do Spark em testes de unidade?

Então, graças aos blogs facilmente acessíveis, tentei: import org.specs2.mutable.Specification class SparkEngineSpecs extends Specification { sequential def setLogLevels(level: Level, loggers: Seq[String]): Map[String, Level] = ...

1 a resposta

apache spark MLLib: como construir pontos rotulados para recursos de string?

Estou tentando criar um classificador NaiveBayes com o MLLib do Spark, que usa como entrada um conjunto de documentos. Gostaria de colocar algumas coisas como recursos (ou seja, autores, tags explícitas, palavras-chave implícitas, categoria), ...

9 a resposta

Como carregar o arquivo local no sc.textFile, em vez do HDFS

Eu estou seguindo o grandetutorial faísca [https://www.youtube.com/watch?v=VWeWViFCzzg] então eu estou tentando 46m: 00s para carregar oREADME.md mas falha no que estou fazendo é o seguinte: $ sudo docker run -i -t -h sandbox ...

2 a resposta

Erro de dependência do Mllib

Estou tentando criar um aplicativo autônomo scala muito simples usando o Mllib, mas recebo o seguinte erro ao tentar aumentar o programa: Object Mllib is not a member of package org.apache.sparkEntão, percebi que tinha que adicionar o Mllib como ...

5 a resposta

Por que o Spark falha com o limite de java.lang.OutOfMemoryError: GC excedido?

Estou tentando implementar um trabalho Hadoop Map / Reduce que funcionou bem antes no Spark. A definição do aplicativo Spark é a seguinte: val data = spark.textFile(file, 2).cache() val result = data .map(//some pre-processing) .map(docWeightPar ...

1 a resposta

Apache Spark - Lidando com janelas deslizantes em RDDs temporais

Eu tenho trabalhado bastante com o Apache Spark nos últimos meses, mas agora recebi uma tarefa bastante difícil: calcular etc / média média / mínima / máxima em uma janela deslizante sobre uma janela emparelhadaRDD onde o componente Key é uma tag ...

2 a resposta

Como processar registros de entrada de várias linhas no Spark

Eu tenho cada registro espalhado por várias linhas no arquivo de entrada (arquivo muito grande). Ex: Id: 2 ASIN: 0738700123 title: Test tile for this product group: Book salesrank: 168501 similar: 5 0738700811 1567184912 1567182813 0738700514 ...