Resultados da pesquisa a pedido "apache-spark-mllib"

1 a resposta

O Spark não utiliza todo o núcleo durante a execução de Regressão Linear com SGD

Estou executando o Spark na minha máquina local (16G, 8 núcleos de CPU). Eu estava tentando treinar o modelo de regressão linear em um conjunto de dados de tamanho 300MB. Eu verifiquei as estatísticas da CPU e também os programas em execução, ele ...

2 a resposta

Spark 1.5.1, Probabilidade de floresta aleatória MLLib

Estou usando o Spark 1.5.1 com MLLib. Criei um modelo de floresta aleatória usando o MLLib, agora use o modelo para fazer previsões. Eu posso encontrar a categoria de previsão (0,0 ou 1,0) usando a função .predict. No entanto, não consigo ...

1 a resposta

Multiplicação de matrizes no Apache Spark [fechado]

Estou tentando executar a multiplicação de matrizes usando Apache Spark e Java. Eu tenho 2 perguntas principais: Como criar RDD que pode representar matriz no Apache Spark?Como multiplicar dois desses RDDs?

3 a resposta

Spark Word2vec matemática de vetor

Eu estava olhando para oexemplo [http://spark.apache.org/docs/latest/mllib-feature-extraction.html#example]do site Spark para Word2Vec: val input = sc.textFile("text8").map(line => line.split(" ").toSeq) val word2vec = new Word2Vec() val model = ...

3 a resposta

Spark: limiar e precisão do modelo de regressão

Eu tenho o modo de regressão logística, onde defino explicitamente o limite para 0,5. model.setThreshold(0.5)Treino o modelo e quero obter estatísticas básicas - precisão, recall etc. Isto é o que faço quando avalio o modelo: val metrics = new ...

1 a resposta

Personalizar o Formulário de Distância do K-means no Apache Spark Python

Agora estou usando o K-means para agrupar e seguireste tutorial [http://spark.apache.org/docs/latest/mllib-clustering.html]eAPI [https://spark.apache.org/docs/1.0.0/api/python/pyspark.mllib.clustering-module.html] . Mas quero usar uma fórmula ...

1 a resposta

O trabalho do Spark Mlib FPGrowth falha com erro de memória

Eu tenho um caso de uso bastante simples, mas um conjunto de resultados potencialmente muito grande. Meu código faz o seguinte (no shell pyspark): from pyspark.mllib.fpm import FPGrowth data ...

2 a resposta

SPARK, ML, Tuning, CrossValidator: acesse as métricas

Para criar um classificador multiclasse NaiveBayes, estou usando um CrossValidator para selecionar os melhores parâmetros no meu pipeline: val cv = new CrossValidator() .setEstimator(pipeline) .setEstimatorParamMaps(paramGrid) ...

1 a resposta

Como melhorar o resultado da minha recomendação? Estou usando o Spark ALS implícito

Primeiro, tenho um histórico de uso do aplicativo do usuário. Por exemplo: user1, app1, 3 (horário de lançamento) user2, app2, 2 (horário de lançamento) user3, app1, 1 (horário de lançamento) Eu tenho basicamente duas demandas: Recomende um ...

3 a resposta

Convertendo uma coluna de vetor em um quadro de dados novamente em uma coluna de matriz

Eu tenho um dataframe com duas colunas, uma das quais (chamada dist) é um vetor denso. Como posso convertê-lo novamente em uma coluna de matriz de números inteiros. +---+-----+ | id| dist| +---+-----+ |1.0|[2.0]| |2.0|[4.0]| ...