Resultados da pesquisa a pedido "apache-spark-mllib"

2 a resposta

Vetor esparso vs vetor denso

Como criarSparseVector e representações vetoriais densas se oDenseVector é: denseV = np.array([0., 3., 0., 4.])Qual será a representação do vetor esparso?

1 a resposta

Como agrupar um RDD, com DenseVector como chave, no Spark?

Eu criei um RDD com cada membro sendo um par de valor-chave e a chave sendo umDenseVector e valor sendo umint. por exemplo. [(DenseVector([3,4]),10), (DenseVector([3,4]),20)]Agora eu quero agrupar pela chavek1: DenseVector([3,4]). Espero que o ...

1 a resposta

Spark MLlib: construindo classificadores para cada grupo de dados

Eu rotulei vetores (LabeledPoint-s) com o número de um grupo. Para cada grupo que preciso criaruma separação Classificador de regressão logística: import org.apache.log4j.{Level, Logger} ...

1 a resposta

Spark mllib prevendo número estranho ou NaN

Eu sou novo no Apache Spark e estou tentando usar a biblioteca de aprendizado de máquina para prever alguns dados. Meu conjunto de dados agora é de apenas cerca de 350 pontos. Aqui estão 7 desses pontos: "365","4",41401.387,5330569 ...

1 a resposta

Conversão RDD para LabeledPoint

Se eu tiver um RDD com cerca de 500 colunas e 200 milhões de linhas, eRDD.columns.indexOf("target", 0) mostraInt = 77 que indica que minha variável dependente direcionada está na coluna número 77. Mas não tenho conhecimento suficiente sobre como ...

1 a resposta

Como gerar tuplas de (etiqueta original, etiqueta prevista) no Spark com MLlib?

Estou tentando fazer previsões com o modelo que voltei do MLlib no Spark. O objetivo é gerar tuplas de (orinalLabelInData, predictedLabel). Em seguida, essas tuplas podem ser usadas para fins de avaliação do modelo. Qual a melhor maneira de ...

8 a resposta

Como extrair os melhores parâmetros de um CrossValidatorModel

Eu quero encontrar os parâmetros deParamGridBuilder que fazem o melhor modelo no CrossValidator no Spark 1.4.x, NoExemplo de Pipeline [http://spark.apache.org/docs/latest/ml-guide.html#example-model-selection-via-cross-validation] na ...

1 a resposta

Formato de arquivo de modelo do Apache Spark MLlib

Os algoritmos do Apache Spark MLlib (por exemplo, Árvores de Decisão) salvam o modelo em um local (por exemplo,myModelPath) onde ele cria dois diretórios, viz.myModelPath/data emyModelPath/metadata. Existem vários arquivos nesses caminhos e esses ...

2 a resposta

Como converter um mapa no RDD do Spark

Eu tenho um conjunto de dados que está na forma de alguns mapas aninhados e seu tipo Scala é: Map[String, (LabelType,Map[Int, Double])]O primeiroString key é um identificador exclusivo para cada amostra, e o valor é uma tupla que contém o rótulo ...

1 a resposta

Executar mais de 3000 modelos de floresta aleatória por grupo usando a API Spark MLlib Scala

Estou tentando criar modelos de floresta aleatórios por grupo (School_ID, mais de 3 mil) em um arquivo csv de entrada de modelo grande usando a API Spark Scala. Cada grupo contém cerca de 3000 a 4000 registros. Os recursos que tenho à disposição ...