Resultados da pesquisa a pedido "apache-spark"
Spark - scala: misturar RDD / dividir RDD em duas partes aleatórias aleatoriamente
Como posso pegar uma matriz de centelha de rdd e dividi-la em dois rdds aleatoriamente para que cada rdd inclua parte dos dados (digamos 97% e 3%). Pensei em embaralhar a lista e depoisshuffledList.take((0.97*rddList.count).toInt) Mas como ...
Operação da janela de transmissão do Spark
A seguir, é apresentado um código simples para obter a contagem de palavras em um tamanho de janela de 30 segundos e um tamanho de slide de 10 segundos. import org.apache.spark.SparkConf import org.apache.spark.streaming._ ...
definindo SparkContext para pyspark
Eu sou novato comspark epyspark. Eu aprecio se alguém explicar o que exatamente fazSparkContext parâmetro do? E como eu poderia definirspark_context para aplicação python?
Apache Spark - java.lang.NoSuchMethodError: breeze.linalg.DenseVector
Estou tendo problemas ao executar o Apache Spark 1.0.1 em um Play! aplicativo. Atualmente, estou tentando executar o Spark no Play! aplicação e use parte do Machine Learning básico no Spark. Aqui está a criação do meu aplicativo: def ...
Faísca no entendimento do conceito de fios
Estou tentando entender como o spark é executado no cluster / cliente YARN. Eu tenho a seguinte pergunta em minha mente. É necessário que o spark esteja instalado em todos os nós no cluster de fios? Eu acho que deveria, porque os nós do ...
Como ler da hbase usando o spark
O código abaixo lerá a partir do hbase, depois o converterá em estrutura json e o converterá em schemaRDD, mas o problema é que eu souusing List para armazenar a string json e passar para javaRDD, para dados de cerca de 100 GB, o mestre será ...
Como executo a árvore de decisão do Spark com um conjunto de recursos categóricos usando o Scala?
Eu tenho um conjunto de recursos com um categoricalFeaturesInfo correspondente: Map [Int, Int]. No entanto, para a minha vida, não consigo descobrir como devo fazer com que a classe DecisionTree funcione. Ele não aceitará nada, mas ...
Como converter List para JavaRDD
Sabemos que no Spark existe um método rdd.collect que converte RDD em uma lista. List<String> f= rdd.collect(); String[] array = f.toArray(new String[f.size()]); Estou tentando fazer exatamente o oposto no meu projeto. Eu tenho um ArrayList de ...
O objetivo do ClosureCleaner.clean
Antessc.runJob invocadagScheduler.runJob, a função executada no rdd é "limpa" porClosureCleaner.clean. Por que a faísca tem que fazer isso? Qual é o objetivo?
Como posso me conectar a um banco de dados postgreSQL no Apache Spark usando o scala?
Quero saber como posso seguir as coisas no scala? Conecte-se a um banco de dados postgreSQL usando o Spark scala.Escreva consultas SQL como SELECT, UPDATE etc. para modificar uma tabela nesse banco de dados.Eu sei fazer isso usando o scala, mas ...