Resultados da pesquisa a pedido "apache-spark-ml"
Como obter detalhes das palavras do TF Vector RDD no Spark ML Lib?
Eu criei Term Frequency usandoHashingTF no Spark. Eu tenho o termo frequências usandotf.transform para cada palavra. Mas os resultados estão sendo mostrados neste formato. [<hashIndexofHashBucketofWord1>,<hashIndexofHashBucketofWord2> ...
Armazenando em cache resultados intermediários no pipeline Spark ML
Ultimamente, estou planejando migrar meu código ML python autônomo para ativar. O pipeline de ML emspark.ml é bastante útil, com API simplificada para encadear estágios de algoritmos e pesquisa na grade de hiperparâmetros. Ainda assim, achei seu ...
Regressão logística do pipeline Spark ML produz previsões muito piores do que o R GLM
Usei o ML PipeLine para executar modelos de regressão logística, mas por algumas razões obtive piores resultados do que R. Fiz algumas pesquisas e o único post que achei relacionado a esse problema ...
Codifique e monte vários recursos no PySpark
Eu tenho uma classe Python que estou usando para carregar e processar alguns dados no Spark. Entre várias coisas que preciso fazer, estou gerando uma lista de variáveis fictícias derivadas de várias colunas em um dataframe do Spark. Meu problema ...
Pyspark e PCA: Como posso extrair os autovetores deste PCA? Como posso calcular quanta variação eles estão explicando?
Estou reduzindo a dimensionalidade de umSpark DataFrame comPCA modelo com pyspark (usando ospark ml biblioteca) da seguinte forma: pca = PCA(k=3, inputCol="features", outputCol="pca_features") model = pca.fit(data)Ondedata é umSpark DataFrame ...
SPARK ML, classificador Naive Bayes: previsão de alta probabilidade para uma classe
Estou usando o Spark ML para otimizar um Naive Ba, sim um classificador de várias classes. Tenho cerca de 300 categorias e estou classificando documentos de texto. O conjunto de treinamento é equilibrado o suficiente e existem cerca de ...
Personalizar o Formulário de Distância do K-means no Apache Spark Python
Agora estou usando o K-means para agrupar e seguireste tutorial [http://spark.apache.org/docs/latest/mllib-clustering.html]eAPI [https://spark.apache.org/docs/1.0.0/api/python/pyspark.mllib.clustering-module.html] . Mas quero usar uma fórmula ...
Aplicando IndexToString ao vetor de recursos no Spark
Contexto:Eu tenho um quadro de dados onde todos os valores categóricos foram indexados usando StringIndexer. val categoricalColumns = df.schema.collect { case StructField(name, StringType, nullable, meta) => name } val categoryIndexers = ...
Tornando os recursos dos dados de teste iguais aos dados do trem após a seleção dos recursos no spark
Estou trabalhando no Scala. Tenho uma grande pergunta: o ChiSqSelector parece reduzir a dimensão com êxito, mas não consigo identificar quais recursos foram reduzidos e o que permaneceu. Como posso saber quais recursos foram ...
Spark ML - Save OneVsRestModel
Estou refatorando meu código para tirar proveito deQuadros de dados, estimadores e pipelines [http://spark.apache.org/docs/latest/ml-guide.html]. Eu estava usando originalmenteMLlib Multiclass ...