Resultados da pesquisa a pedido "apache-spark-mllib"

1 a resposta

Semelhança de string com a condição OR no MinHash Spark ML

Eu tenho dois conjuntos de dados, o primeiro é um grande conjunto de dados de referência e do segundo conjunto de dados encontrará a melhor correspondência do primeiro conjunto de dados através do algoritmo MinHash. val dataset1 = ...

1 a resposta

O Pipeline Spark ML com RandomForest leva muito tempo no conjunto de dados de 20 MB

Estou usando o Spark ML para executar algumas experiências de ML e em um pequeno conjunto de dados de 20 MB (Conjunto de dados de poker [http://archive.ics.uci.edu/ml/machine-learning-databases/poker/poker-hand-testing.data] ) e uma Floresta ...

5 a resposta

Como atribuir números contíguos exclusivos a elementos em um RDD Spark

Eu tenho um conjunto de dados de(user, product, review)e deseja alimentá-lo no algoritmo ALS do mllib. O algoritmo precisa que usuários e produtos sejam números, enquanto os meus são nomes de usuário e SKUs de String. No momento, recebo os ...

1 a resposta

Apache Spark - MlLib - Filtragem colaborativa

Estou tentando usar o MlLib para minha filtragem coloborativa. Encontro o seguinte erro no meu programa Scala quando o executo no Apache Spark 1.0.0. 14/07/15 16:16:31 WARN NativeCodeLoader: Unable to load native-hadoop library for your ...

3 a resposta

Como executo a árvore de decisão do Spark com um conjunto de recursos categóricos usando o Scala?

Eu tenho um conjunto de recursos com um categoricalFeaturesInfo correspondente: Map [Int, Int]. No entanto, para a minha vida, não consigo descobrir como devo fazer com que a classe DecisionTree funcione. Ele não aceitará nada, mas ...

1 a resposta

Imprimindo o ClusterID e seus elementos usando o Spark KMeans.

Eu tenho este programa que imprime o algoritmo MSSE of Kmeans no apache-spark. Existem 20 clusters gerados. Estou tentando imprimir o clusterID e os elementos que foram atribuídos ao respectivo clusterID. Como faço um loop sobre o clusterID para ...

1 a resposta

O CrossValidator não suporta o VectorUDT como rótulo no spark-ml

Eu tenho um problema com ml.crossvalidator no scala spark enquanto estiver usando um codificador quente. este é o meu código val tokenizer = new Tokenizer(). setInputCol("subjects"). setOutputCol("subject") //CountVectorizer / TF val ...

1 a resposta

apache spark MLLib: como construir pontos rotulados para recursos de string?

Estou tentando criar um classificador NaiveBayes com o MLLib do Spark, que usa como entrada um conjunto de documentos. Gostaria de colocar algumas coisas como recursos (ou seja, autores, tags explícitas, palavras-chave implícitas, categoria), ...

2 a resposta

Erro de dependência do Mllib

Estou tentando criar um aplicativo autônomo scala muito simples usando o Mllib, mas recebo o seguinte erro ao tentar aumentar o programa: Object Mllib is not a member of package org.apache.sparkEntão, percebi que tinha que adicionar o Mllib como ...

1 a resposta

Como converter org.apache.spark.rdd.RDD [Array [Double]] para Array [Double], exigido pelo Spark MLlib

Estou tentando implementarKMeans using Apache Spark. val data = sc.textFile(irisDatasetString) val parsedData = data.map(_.split(',').map(_.toDouble)).cache() val clusters = KMeans.train(parsedData,3,numIterations = 20)no qual eu recebo o ...