Resultados da pesquisa a pedido "apache-spark-ml"

1 a resposta

Como obter detalhes das palavras do TF Vector RDD no Spark ML Lib?

Eu criei Term Frequency usandoHashingTF no Spark. Eu tenho o termo frequências usandotf.transform para cada palavra. Mas os resultados estão sendo mostrados neste formato. [<hashIndexofHashBucketofWord1>,<hashIndexofHashBucketofWord2> ...

1 a resposta

Armazenando em cache resultados intermediários no pipeline Spark ML

Ultimamente, estou planejando migrar meu código ML python autônomo para ativar. O pipeline de ML emspark.ml é bastante útil, com API simplificada para encadear estágios de algoritmos e pesquisa na grade de hiperparâmetros. Ainda assim, achei seu ...

1 a resposta

Regressão logística do pipeline Spark ML produz previsões muito piores do que o R GLM

Usei o ML PipeLine para executar modelos de regressão logística, mas por algumas razões obtive piores resultados do que R. Fiz algumas pesquisas e o único post que achei relacionado a esse problema ...

1 a resposta

Codifique e monte vários recursos no PySpark

Eu tenho uma classe Python que estou usando para carregar e processar alguns dados no Spark. Entre várias coisas que preciso fazer, estou gerando uma lista de variáveis fictícias derivadas de várias colunas em um dataframe do Spark. Meu problema ...

1 a resposta

Pyspark e PCA: Como posso extrair os autovetores deste PCA? Como posso calcular quanta variação eles estão explicando?

Estou reduzindo a dimensionalidade de umSpark DataFrame comPCA modelo com pyspark (usando ospark ml biblioteca) da seguinte forma: pca = PCA(k=3, inputCol="features", outputCol="pca_features") model = pca.fit(data)Ondedata é umSpark DataFrame ...

1 a resposta

SPARK ML, classificador Naive Bayes: previsão de alta probabilidade para uma classe

Estou usando o Spark ML para otimizar um Naive Ba, sim um classificador de várias classes. Tenho cerca de 300 categorias e estou classificando documentos de texto. O conjunto de treinamento é equilibrado o suficiente e existem cerca de ...

1 a resposta

Personalizar o Formulário de Distância do K-means no Apache Spark Python

Agora estou usando o K-means para agrupar e seguireste tutorial [http://spark.apache.org/docs/latest/mllib-clustering.html]eAPI [https://spark.apache.org/docs/1.0.0/api/python/pyspark.mllib.clustering-module.html] . Mas quero usar uma fórmula ...

1 a resposta

Aplicando IndexToString ao vetor de recursos no Spark

Contexto:Eu tenho um quadro de dados onde todos os valores categóricos foram indexados usando StringIndexer. val categoricalColumns = df.schema.collect { case StructField(name, StringType, nullable, meta) => name } val categoryIndexers = ...

1 a resposta

Tornando os recursos dos dados de teste iguais aos dados do trem após a seleção dos recursos no spark

Estou trabalhando no Scala. Tenho uma grande pergunta: o ChiSqSelector parece reduzir a dimensão com êxito, mas não consigo identificar quais recursos foram reduzidos e o que permaneceu. Como posso saber quais recursos foram ...

1 a resposta

Spark ML - Save OneVsRestModel

Estou refatorando meu código para tirar proveito deQuadros de dados, estimadores e pipelines [http://spark.apache.org/docs/latest/ml-guide.html]. Eu estava usando originalmenteMLlib Multiclass ...