Resultados da pesquisa a pedido "apache-spark-mllib"
Vetor esparso vs vetor denso
Como criarSparseVector e representações vetoriais densas se oDenseVector é: denseV = np.array([0., 3., 0., 4.])Qual será a representação do vetor esparso?
Como agrupar um RDD, com DenseVector como chave, no Spark?
Eu criei um RDD com cada membro sendo um par de valor-chave e a chave sendo umDenseVector e valor sendo umint. por exemplo. [(DenseVector([3,4]),10), (DenseVector([3,4]),20)]Agora eu quero agrupar pela chavek1: DenseVector([3,4]). Espero que o ...
Spark MLlib: construindo classificadores para cada grupo de dados
Eu rotulei vetores (LabeledPoint-s) com o número de um grupo. Para cada grupo que preciso criaruma separação Classificador de regressão logística: import org.apache.log4j.{Level, Logger} ...
Spark mllib prevendo número estranho ou NaN
Eu sou novo no Apache Spark e estou tentando usar a biblioteca de aprendizado de máquina para prever alguns dados. Meu conjunto de dados agora é de apenas cerca de 350 pontos. Aqui estão 7 desses pontos: "365","4",41401.387,5330569 ...
Conversão RDD para LabeledPoint
Se eu tiver um RDD com cerca de 500 colunas e 200 milhões de linhas, eRDD.columns.indexOf("target", 0) mostraInt = 77 que indica que minha variável dependente direcionada está na coluna número 77. Mas não tenho conhecimento suficiente sobre como ...
Como gerar tuplas de (etiqueta original, etiqueta prevista) no Spark com MLlib?
Estou tentando fazer previsões com o modelo que voltei do MLlib no Spark. O objetivo é gerar tuplas de (orinalLabelInData, predictedLabel). Em seguida, essas tuplas podem ser usadas para fins de avaliação do modelo. Qual a melhor maneira de ...
Como extrair os melhores parâmetros de um CrossValidatorModel
Eu quero encontrar os parâmetros deParamGridBuilder que fazem o melhor modelo no CrossValidator no Spark 1.4.x, NoExemplo de Pipeline [http://spark.apache.org/docs/latest/ml-guide.html#example-model-selection-via-cross-validation] na ...
Formato de arquivo de modelo do Apache Spark MLlib
Os algoritmos do Apache Spark MLlib (por exemplo, Árvores de Decisão) salvam o modelo em um local (por exemplo,myModelPath) onde ele cria dois diretórios, viz.myModelPath/data emyModelPath/metadata. Existem vários arquivos nesses caminhos e esses ...
Como converter um mapa no RDD do Spark
Eu tenho um conjunto de dados que está na forma de alguns mapas aninhados e seu tipo Scala é: Map[String, (LabelType,Map[Int, Double])]O primeiroString key é um identificador exclusivo para cada amostra, e o valor é uma tupla que contém o rótulo ...
Executar mais de 3000 modelos de floresta aleatória por grupo usando a API Spark MLlib Scala
Estou tentando criar modelos de floresta aleatórios por grupo (School_ID, mais de 3 mil) em um arquivo csv de entrada de modelo grande usando a API Spark Scala. Cada grupo contém cerca de 3000 a 4000 registros. Os recursos que tenho à disposição ...