Resultados da pesquisa a pedido "apache-spark-mllib"

1 a resposta

Dividir o conteúdo da coluna String no PySpark Dataframe

Eu tenho um quadro de dados pyspark que possui uma coluna contendo seqüências de caracteres. Eu quero dividir esta coluna em palavras Código: >>> sentenceData = sqlContext.read.load('file://sample1.csv', format='com.databricks.spark.csv', ...

0 a resposta

Escalando cada coluna de um quadro de dados

Estou tentando dimensionar todas as colunas de um quadro de dados. Primeiro converto cada coluna em um vetor e depois uso o ml MinMax Scaler. Existe uma maneira melhor / mais elegante de aplicar a mesma função a cada coluna do que simplesmente ...

2 a resposta

Modelo ALS - como gerar full_u * v ^ t * v?

Estou tentando descobrir como um modelo ALS pode prever valores para novos usuários entre eles serem atualizados por um processo em lote. Na minha pesquisa, me deparei com issoresposta stackoverflow [https://stackoverflow.com/a/34729751/1033422]. ...

1 a resposta

Modelo ALS - as classificações full_u * v ^ t * v previstas são muito altas

Estou prevendo classificações entre processos que treinam em lote o modelo. Estou usando a abordagem descrita aqui:Modelo ALS - como gerar full_u * v ^ t * v? [https://stackoverflow.com/questions/41537470/als-model-how-to-generate-full-u-vt-v] ! ...

1 a resposta

Como fazer previsões com o Sklearn Model dentro do Spark?

Eu treinei um modelo em python usando o sklearn. Como podemos usar o mesmo modelo para carregar no Spark e gerar previsões em um RDD do spark?

3 a resposta

Como lidar com recursos categóricos para Decision Tree, Random Forest em spark ml?

Estou tentando criar uma árvore de decisão e um classificador aleatório de floresta nos dados de marketing do banco UCI -> https://archive.ics.uci.edu/ml/datasets/bank+marketing [https://archive.ics.uci.edu/ml/datasets/bank+marketing]. Existem ...

1 a resposta

Como entender o tipo de formato da libsvm do Spark MLlib?

Eu sou novo no aprendizado do Spark MLlib. Quando eu estava lendo sobre o exemplo de regressão logística binomial, não entendi o tipo de formato "libsvm". (Regressão logística ...

1 a resposta

Como codificar valores de seqüência de caracteres em valores numéricos no Spark DataFrame

Eu tenho um DataFrame com duas colunas: df = Col1 Col2 aaa bbb ccc aaaEu quero codificar valores String em valores numéricos. Eu consegui fazer isso desta maneira: import org.apache.spark.ml.feature.{OneHotEncoder, StringIndexer} val indexer1 ...

1 a resposta

Junte dois gasodutos Spark mllib juntos

Eu tenho dois separadosDataFrames cada um com várias etapas de processamento diferentes, que eu usomllib transformadores em um pipeline para lidar. Agora, quero unir esses dois pipelines, mantendo os recursos (colunas) de cadaDataFrame. O ...

2 a resposta

Maneira ideal de criar um pipeline de ml no Apache Spark para conjunto de dados com alto número de colunas

Estou trabalhando com o Spark 2.1.1 em um conjunto de dados com recursos ~ 2000 e tentando criar um pipeline básico de ML, composto por alguns transformadores e um classificador. Vamos supor, por uma questão de simplicidade, que o Pipeline com o ...