Resultados da pesquisa a pedido "apache-spark-mllib"
Dividir o conteúdo da coluna String no PySpark Dataframe
Eu tenho um quadro de dados pyspark que possui uma coluna contendo seqüências de caracteres. Eu quero dividir esta coluna em palavras Código: >>> sentenceData = sqlContext.read.load('file://sample1.csv', format='com.databricks.spark.csv', ...
Escalando cada coluna de um quadro de dados
Estou tentando dimensionar todas as colunas de um quadro de dados. Primeiro converto cada coluna em um vetor e depois uso o ml MinMax Scaler. Existe uma maneira melhor / mais elegante de aplicar a mesma função a cada coluna do que simplesmente ...
Modelo ALS - como gerar full_u * v ^ t * v?
Estou tentando descobrir como um modelo ALS pode prever valores para novos usuários entre eles serem atualizados por um processo em lote. Na minha pesquisa, me deparei com issoresposta stackoverflow [https://stackoverflow.com/a/34729751/1033422]. ...
Modelo ALS - as classificações full_u * v ^ t * v previstas são muito altas
Estou prevendo classificações entre processos que treinam em lote o modelo. Estou usando a abordagem descrita aqui:Modelo ALS - como gerar full_u * v ^ t * v? [https://stackoverflow.com/questions/41537470/als-model-how-to-generate-full-u-vt-v] ! ...
Como fazer previsões com o Sklearn Model dentro do Spark?
Eu treinei um modelo em python usando o sklearn. Como podemos usar o mesmo modelo para carregar no Spark e gerar previsões em um RDD do spark?
Como lidar com recursos categóricos para Decision Tree, Random Forest em spark ml?
Estou tentando criar uma árvore de decisão e um classificador aleatório de floresta nos dados de marketing do banco UCI -> https://archive.ics.uci.edu/ml/datasets/bank+marketing [https://archive.ics.uci.edu/ml/datasets/bank+marketing]. Existem ...
Como entender o tipo de formato da libsvm do Spark MLlib?
Eu sou novo no aprendizado do Spark MLlib. Quando eu estava lendo sobre o exemplo de regressão logística binomial, não entendi o tipo de formato "libsvm". (Regressão logística ...
Como codificar valores de seqüência de caracteres em valores numéricos no Spark DataFrame
Eu tenho um DataFrame com duas colunas: df = Col1 Col2 aaa bbb ccc aaaEu quero codificar valores String em valores numéricos. Eu consegui fazer isso desta maneira: import org.apache.spark.ml.feature.{OneHotEncoder, StringIndexer} val indexer1 ...
Junte dois gasodutos Spark mllib juntos
Eu tenho dois separadosDataFrames cada um com várias etapas de processamento diferentes, que eu usomllib transformadores em um pipeline para lidar. Agora, quero unir esses dois pipelines, mantendo os recursos (colunas) de cadaDataFrame. O ...
Maneira ideal de criar um pipeline de ml no Apache Spark para conjunto de dados com alto número de colunas
Estou trabalhando com o Spark 2.1.1 em um conjunto de dados com recursos ~ 2000 e tentando criar um pipeline básico de ML, composto por alguns transformadores e um classificador. Vamos supor, por uma questão de simplicidade, que o Pipeline com o ...