Resultados da pesquisa a pedido "apache-spark"

2 a resposta

Spark - scala: misturar RDD / dividir RDD em duas partes aleatórias aleatoriamente

Como posso pegar uma matriz de centelha de rdd e dividi-la em dois rdds aleatoriamente para que cada rdd inclua parte dos dados (digamos 97% e 3%). Pensei em embaralhar a lista e depoisshuffledList.take((0.97*rddList.count).toInt) Mas como ...

1 a resposta

Operação da janela de transmissão do Spark

A seguir, é apresentado um código simples para obter a contagem de palavras em um tamanho de janela de 30 segundos e um tamanho de slide de 10 segundos. import org.apache.spark.SparkConf import org.apache.spark.streaming._ ...

3 a resposta

definindo SparkContext para pyspark

Eu sou novato comspark epyspark. Eu aprecio se alguém explicar o que exatamente fazSparkContext parâmetro do? E como eu poderia definirspark_context para aplicação python?

1 a resposta

Apache Spark - java.lang.NoSuchMethodError: breeze.linalg.DenseVector

Estou tendo problemas ao executar o Apache Spark 1.0.1 em um Play! aplicativo. Atualmente, estou tentando executar o Spark no Play! aplicação e use parte do Machine Learning básico no Spark. Aqui está a criação do meu aplicativo: def ...

3 a resposta

Faísca no entendimento do conceito de fios

Estou tentando entender como o spark é executado no cluster / cliente YARN. Eu tenho a seguinte pergunta em minha mente. É necessário que o spark esteja instalado em todos os nós no cluster de fios? Eu acho que deveria, porque os nós do ...

4 a resposta

Como ler da hbase usando o spark

O código abaixo lerá a partir do hbase, depois o converterá em estrutura json e o converterá em schemaRDD, mas o problema é que eu souusing List para armazenar a string json e passar para javaRDD, para dados de cerca de 100 GB, o mestre será ...

3 a resposta

Como executo a árvore de decisão do Spark com um conjunto de recursos categóricos usando o Scala?

Eu tenho um conjunto de recursos com um categoricalFeaturesInfo correspondente: Map [Int, Int]. No entanto, para a minha vida, não consigo descobrir como devo fazer com que a classe DecisionTree funcione. Ele não aceitará nada, mas ...

4 a resposta

Como converter List para JavaRDD

Sabemos que no Spark existe um método rdd.collect que converte RDD em uma lista. List<String> f= rdd.collect(); String[] array = f.toArray(new String[f.size()]); Estou tentando fazer exatamente o oposto no meu projeto. Eu tenho um ArrayList de ...

1 a resposta

O objetivo do ClosureCleaner.clean

Antessc.runJob invocadagScheduler.runJob, a função executada no rdd é "limpa" porClosureCleaner.clean. Por que a faísca tem que fazer isso? Qual é o objetivo?

1 a resposta

Como posso me conectar a um banco de dados postgreSQL no Apache Spark usando o scala?

Quero saber como posso seguir as coisas no scala? Conecte-se a um banco de dados postgreSQL usando o Spark scala.Escreva consultas SQL como SELECT, UPDATE etc. para modificar uma tabela nesse banco de dados.Eu sei fazer isso usando o scala, mas ...