Resultados da pesquisa a pedido "apache-spark-ml"

4 a resposta

Como lidar com recursos categóricos com spark-ml?

Como manejo dados categóricos com spark-ml e não spark-mllib ? Embora a documentação não seja muito clara, parece que os classificadores, por exemplo,RandomForestClassifier, LogisticRegression, tenha umfeaturesCol argumento, que especifica o ...

1 a resposta

Como obter detalhes das palavras do TF Vector RDD no Spark ML Lib?

Eu criei Term Frequency usandoHashingTF no Spark. Eu tenho o termo frequências usandotf.transform para cada palavra. Mas os resultados estão sendo mostrados neste formato. [<hashIndexofHashBucketofWord1>,<hashIndexofHashBucketofWord2> ...

3 a resposta

Como salvar modelos do ML Pipeline para S3 ou HDFS?

Estou tentando salvar milhares de modelos produzidos pelo ML Pipeline. Conforme indicado na respostaaqui [https://stackoverflow.com/questions/32121046/run-3000-random-forest-models-by-group-using-spark-mllib-scala-api] , os modelos podem ser ...

1 a resposta

Armazenando em cache resultados intermediários no pipeline Spark ML

Ultimamente, estou planejando migrar meu código ML python autônomo para ativar. O pipeline de ML emspark.ml é bastante útil, com API simplificada para encadear estágios de algoritmos e pesquisa na grade de hiperparâmetros. Ainda assim, achei seu ...

1 a resposta

Regressão logística do pipeline Spark ML produz previsões muito piores do que o R GLM

Usei o ML PipeLine para executar modelos de regressão logística, mas por algumas razões obtive piores resultados do que R. Fiz algumas pesquisas e o único post que achei relacionado a esse problema ...

3 a resposta

Como converter um RDD com uma coluna SparseVector em um DataFrame com uma coluna como Vector

eu tenho umRDDcom uma tupla de valores (String, SparseVector) e quero criar um Quadro de dadosusando oRDD. Para obter um (label: string, features: vector) Quadro de dadosque é o esquema exigido pela maioria das bibliotecas do algoritmo ml. Eu sei ...

1 a resposta

Codifique e monte vários recursos no PySpark

Eu tenho uma classe Python que estou usando para carregar e processar alguns dados no Spark. Entre várias coisas que preciso fazer, estou gerando uma lista de variáveis fictícias derivadas de várias colunas em um dataframe do Spark. Meu problema ...

3 a resposta

Spark DataFrame entregando String vazia no OneHotEncoder

Estou importando um arquivo CSV (usando spark-csv) para umDataFrame que está vazioString valores. Quando aplicado, oOneHotEncoder, o aplicativo trava com errorequirement failed: Cannot have an empty string for name.. Existe uma maneira de ...

1 a resposta

Pyspark e PCA: Como posso extrair os autovetores deste PCA? Como posso calcular quanta variação eles estão explicando?

Estou reduzindo a dimensionalidade de umSpark DataFrame comPCA modelo com pyspark (usando ospark ml biblioteca) da seguinte forma: pca = PCA(k=3, inputCol="features", outputCol="pca_features") model = pca.fit(data)Ondedata é umSpark DataFrame ...

2 a resposta

O Apache Spark lança NullPointerException ao encontrar o recurso ausente

Eu tenho um problema bizarro com o PySpark ao indexar colunas de strings em recursos. Aqui está o meu arquivo tmp.csv: x0,x1,x2,x3 asd2s,1e1e,1.1,0 asd2s,1e1e,0.1,0 ,1e3e,1.2,0 bd34t,1e1e,5.1,1 asd2s,1e3e,0.2,0 bd34t,1e2e,4.3,1onde eu tenho um ...