Resultados da pesquisa a pedido "apache-spark-mllib"

1 a resposta

Compreendendo a representação da coluna vetorial no Spark SQL

Antes de usar o VectorAssembler () para consolidar alguns recursos categóricos do OneHotEncoded ... Meu quadro de dados era assim: | Numerical| HotEncoded1| HotEncoded2 | 14460.0| (44,[5],[1.0])| (3,[0],[1.0])| | 14460.0| (44,[9],[1.0])| ...

2 a resposta

Se podemos atualizar o modelo existente no spark-ml / spark-mllib?

Estamos usando o spark-ml para construir o modelo a partir dos dados existentes. Novos dados são fornecidos diariamente. Existe uma maneira de apenas poder ler os novos dados e atualizar o modelo existente sem precisar ler todos os dados e ...

3 a resposta

Como servir um modelo Spark MLlib?

Estou avaliando ferramentas para aplicativos baseados em ML de produção e uma das nossas opções é o Spark MLlib, mas tenho algumas dúvidas sobre como servir um modelo depois de treinado? Por exemplo, no Azure ML, uma vez treinado, o modelo é ...

2 a resposta

Não é possível converter o tipo <class 'pyspark.ml.linalg.SparseVector'> em Vector

Dado meu objeto Row pyspark: >>> row Row(clicked=0, features=SparseVector(7, {0: 1.0, 3: 1.0, 6: 0.752})) >>> row.clicked 0 >>> row.features SparseVector(7, {0: 1.0, 3: 1.0, 6: 0.752}) >>> type(row.features) <class ...

1 a resposta

Spark RDD: Como calcular estatísticas com mais eficiência?

Assumindo a existência de um RDD de tuplas semelhante ao seguinte: (key1, 1) (key3, 9) (key2, 3) (key1, 4) (key1, 5) (key3, 2) (key2, 7) ...Qual é a maneira mais eficiente (e, idealmente, distribuída) de calcular estatísticas correspondentes a ...

2 a resposta

O KMeans do Spark não consegue lidar com dados grandes?

O KMeans possui vários parâmetros para suaTreinamento [http://spark.apache.org/docs/latest/api/python/pyspark.mllib.html?highlight=kmeans#pyspark.mllib.clustering.KMeans.train] , com o modo de inicialização padronizado para kmeans ||. O problema ...

1 a resposta

PCA no Spark MLlib e Spark ML

O Spark agora tem duas bibliotecas de aprendizado de máquina - Spark MLlib e Spark ML. Eles se sobrepõem um pouco ao implementado, mas, pelo que entendi (como uma pessoa nova em todo o ecossistema Spark), o Spark ML é o caminho a percorrer e o ...

2 a resposta

FPgrowth computing association em pyspark vs scala

Usando : http://spark.apache.org/docs/1.6.1/mllib-frequent-pattern-mining.html [http://spark.apache.org/docs/1.6.1/mllib-frequent-pattern-mining.html] Código Python: from pyspark.mllib.fpm import FPGrowth model = ...

2 a resposta

O valor da configuração "spark.yarn.executor.memoryOverhead"?

O valor despark.yarn.executor.memoryOverhead em um trabalho do Spark com YARN deve ser alocado para o aplicativo ou apenas o valor máximo?

1 a resposta

Spark ML VectorAssembler retorna uma saída estranha

Estou experimentando um comportamento muito estranho deVectorAssembler e eu queria saber se mais alguém viu isso. Meu cenário é bem direto. Eu analiso dados de umCSV arquivo onde eu tenho algum padrãoInt eDouble campos e também calculo algumas ...