Resultados da pesquisa a pedido "apache-spark-mllib"

1 a resposta

Como usar o classificador spark Naive Bayes para classificação de texto com IDF?

Quero converter documentos de texto em vetores de recurso usando tf-idf e treinar um algoritmo ingênuo de bayes para classificá-los. Posso carregar facilmente meus arquivos de texto sem os rótulos e usar HashingTF () para convertê-lo em um vetor ...

3 a resposta

Como salvar modelos do ML Pipeline para S3 ou HDFS?

Estou tentando salvar milhares de modelos produzidos pelo ML Pipeline. Conforme indicado na respostaaqui [https://stackoverflow.com/questions/32121046/run-3000-random-forest-models-by-group-using-spark-mllib-scala-api] , os modelos podem ser ...

4 a resposta

Como lidar com recursos categóricos com spark-ml?

Como manejo dados categóricos com spark-ml e não spark-mllib ? Embora a documentação não seja muito clara, parece que os classificadores, por exemplo,RandomForestClassifier, LogisticRegression, tenha umfeaturesCol argumento, que especifica o ...

1 a resposta

Como obter detalhes das palavras do TF Vector RDD no Spark ML Lib?

Eu criei Term Frequency usandoHashingTF no Spark. Eu tenho o termo frequências usandotf.transform para cada palavra. Mas os resultados estão sendo mostrados neste formato. [<hashIndexofHashBucketofWord1>,<hashIndexofHashBucketofWord2> ...

1 a resposta

Spark MLlib LDA, como inferir a distribuição de tópicos de um novo documento invisível?

Estou interessado em aplicar a modelagem de tópicos LDA usando o Spark MLlib. Eu verifiquei o código e as explicações emaqui [http://spark.apache.org/docs/latest/mllib-clustering.html#latent-dirichlet-allocation-lda] mas não consegui encontrar ...

1 a resposta

Adivinhador de tipo de dados Spark UDAF

Queria levar algo assim https://github.com/fitzscott/AirQuality/blob/master/HiveDataTypeGuesser.java [https://github.com/fitzscott/AirQuality/blob/master/HiveDataTypeGuesser.java]e crie um Hive UDAF para criar uma função agregada que retorna uma ...

3 a resposta

Como converter um RDD com uma coluna SparseVector em um DataFrame com uma coluna como Vector

eu tenho umRDDcom uma tupla de valores (String, SparseVector) e quero criar um Quadro de dadosusando oRDD. Para obter um (label: string, features: vector) Quadro de dadosque é o esquema exigido pela maioria das bibliotecas do algoritmo ml. Eu sei ...

1 a resposta

Codifique e monte vários recursos no PySpark

Eu tenho uma classe Python que estou usando para carregar e processar alguns dados no Spark. Entre várias coisas que preciso fazer, estou gerando uma lista de variáveis fictícias derivadas de várias colunas em um dataframe do Spark. Meu problema ...

3 a resposta

Convertendo RDD [org.apache.spark.sql.Row] para RDD [org.apache.spark.mllib.linalg.Vector]

Eu sou relativamente novo no Spark e Scala. Estou começando com o seguinte quadro de dados (coluna única composta por um denso vetor de duplas): scala> val scaledDataOnly_pruned = scaledDataOnly.select("features") scaledDataOnly_pruned: ...

3 a resposta

Spark DataFrame entregando String vazia no OneHotEncoder

Estou importando um arquivo CSV (usando spark-csv) para umDataFrame que está vazioString valores. Quando aplicado, oOneHotEncoder, o aplicativo trava com errorequirement failed: Cannot have an empty string for name.. Existe uma maneira de ...