Resultados da pesquisa a pedido "apache-spark-mllib"
Como usar o classificador spark Naive Bayes para classificação de texto com IDF?
Quero converter documentos de texto em vetores de recurso usando tf-idf e treinar um algoritmo ingênuo de bayes para classificá-los. Posso carregar facilmente meus arquivos de texto sem os rótulos e usar HashingTF () para convertê-lo em um vetor ...
Como salvar modelos do ML Pipeline para S3 ou HDFS?
Estou tentando salvar milhares de modelos produzidos pelo ML Pipeline. Conforme indicado na respostaaqui [https://stackoverflow.com/questions/32121046/run-3000-random-forest-models-by-group-using-spark-mllib-scala-api] , os modelos podem ser ...
Como lidar com recursos categóricos com spark-ml?
Como manejo dados categóricos com spark-ml e não spark-mllib ? Embora a documentação não seja muito clara, parece que os classificadores, por exemplo,RandomForestClassifier, LogisticRegression, tenha umfeaturesCol argumento, que especifica o ...
Como obter detalhes das palavras do TF Vector RDD no Spark ML Lib?
Eu criei Term Frequency usandoHashingTF no Spark. Eu tenho o termo frequências usandotf.transform para cada palavra. Mas os resultados estão sendo mostrados neste formato. [<hashIndexofHashBucketofWord1>,<hashIndexofHashBucketofWord2> ...
Spark MLlib LDA, como inferir a distribuição de tópicos de um novo documento invisível?
Estou interessado em aplicar a modelagem de tópicos LDA usando o Spark MLlib. Eu verifiquei o código e as explicações emaqui [http://spark.apache.org/docs/latest/mllib-clustering.html#latent-dirichlet-allocation-lda] mas não consegui encontrar ...
Adivinhador de tipo de dados Spark UDAF
Queria levar algo assim https://github.com/fitzscott/AirQuality/blob/master/HiveDataTypeGuesser.java [https://github.com/fitzscott/AirQuality/blob/master/HiveDataTypeGuesser.java]e crie um Hive UDAF para criar uma função agregada que retorna uma ...
Como converter um RDD com uma coluna SparseVector em um DataFrame com uma coluna como Vector
eu tenho umRDDcom uma tupla de valores (String, SparseVector) e quero criar um Quadro de dadosusando oRDD. Para obter um (label: string, features: vector) Quadro de dadosque é o esquema exigido pela maioria das bibliotecas do algoritmo ml. Eu sei ...
Codifique e monte vários recursos no PySpark
Eu tenho uma classe Python que estou usando para carregar e processar alguns dados no Spark. Entre várias coisas que preciso fazer, estou gerando uma lista de variáveis fictícias derivadas de várias colunas em um dataframe do Spark. Meu problema ...
Convertendo RDD [org.apache.spark.sql.Row] para RDD [org.apache.spark.mllib.linalg.Vector]
Eu sou relativamente novo no Spark e Scala. Estou começando com o seguinte quadro de dados (coluna única composta por um denso vetor de duplas): scala> val scaledDataOnly_pruned = scaledDataOnly.select("features") scaledDataOnly_pruned: ...
Spark DataFrame entregando String vazia no OneHotEncoder
Estou importando um arquivo CSV (usando spark-csv) para umDataFrame que está vazioString valores. Quando aplicado, oOneHotEncoder, o aplicativo trava com errorequirement failed: Cannot have an empty string for name.. Existe uma maneira de ...