Resultados da pesquisa a pedido "apache-spark-mllib"
O Spark não utiliza todo o núcleo durante a execução de Regressão Linear com SGD
Estou executando o Spark na minha máquina local (16G, 8 núcleos de CPU). Eu estava tentando treinar o modelo de regressão linear em um conjunto de dados de tamanho 300MB. Eu verifiquei as estatísticas da CPU e também os programas em execução, ele ...
Spark 1.5.1, Probabilidade de floresta aleatória MLLib
Estou usando o Spark 1.5.1 com MLLib. Criei um modelo de floresta aleatória usando o MLLib, agora use o modelo para fazer previsões. Eu posso encontrar a categoria de previsão (0,0 ou 1,0) usando a função .predict. No entanto, não consigo ...
Multiplicação de matrizes no Apache Spark [fechado]
Estou tentando executar a multiplicação de matrizes usando Apache Spark e Java. Eu tenho 2 perguntas principais: Como criar RDD que pode representar matriz no Apache Spark?Como multiplicar dois desses RDDs?
Spark Word2vec matemática de vetor
Eu estava olhando para oexemplo [http://spark.apache.org/docs/latest/mllib-feature-extraction.html#example]do site Spark para Word2Vec: val input = sc.textFile("text8").map(line => line.split(" ").toSeq) val word2vec = new Word2Vec() val model = ...
Spark: limiar e precisão do modelo de regressão
Eu tenho o modo de regressão logística, onde defino explicitamente o limite para 0,5. model.setThreshold(0.5)Treino o modelo e quero obter estatísticas básicas - precisão, recall etc. Isto é o que faço quando avalio o modelo: val metrics = new ...
Personalizar o Formulário de Distância do K-means no Apache Spark Python
Agora estou usando o K-means para agrupar e seguireste tutorial [http://spark.apache.org/docs/latest/mllib-clustering.html]eAPI [https://spark.apache.org/docs/1.0.0/api/python/pyspark.mllib.clustering-module.html] . Mas quero usar uma fórmula ...
O trabalho do Spark Mlib FPGrowth falha com erro de memória
Eu tenho um caso de uso bastante simples, mas um conjunto de resultados potencialmente muito grande. Meu código faz o seguinte (no shell pyspark): from pyspark.mllib.fpm import FPGrowth data ...
SPARK, ML, Tuning, CrossValidator: acesse as métricas
Para criar um classificador multiclasse NaiveBayes, estou usando um CrossValidator para selecionar os melhores parâmetros no meu pipeline: val cv = new CrossValidator() .setEstimator(pipeline) .setEstimatorParamMaps(paramGrid) ...
Como melhorar o resultado da minha recomendação? Estou usando o Spark ALS implícito
Primeiro, tenho um histórico de uso do aplicativo do usuário. Por exemplo: user1, app1, 3 (horário de lançamento) user2, app2, 2 (horário de lançamento) user3, app1, 1 (horário de lançamento) Eu tenho basicamente duas demandas: Recomende um ...
Convertendo uma coluna de vetor em um quadro de dados novamente em uma coluna de matriz
Eu tenho um dataframe com duas colunas, uma das quais (chamada dist) é um vetor denso. Como posso convertê-lo novamente em uma coluna de matriz de números inteiros. +---+-----+ | id| dist| +---+-----+ |1.0|[2.0]| |2.0|[4.0]| ...