Resultados da pesquisa a pedido "apache-spark-ml"

1 a resposta

StandardScaler no Spark não está funcionando conforme o esperado

Alguma idéia de por que o Spark faria isso porStandardScaler? Conforme definição deStandardScaler: O StandardScaler padroniza um conjunto de recursos para ter média zero e um desvio padrão de 1. O sinalizador withStd escalará os dados para o ...

1 a resposta

Como imprimir o caminho / regras de decisão usados para prever a amostra de uma linha específica no PySpark?

Como imprimir o caminho de decisão de uma amostra específica em um Spark DataFrame? Spark Version: '2.3.1'O código abaixo imprime o caminho de decisão de todo o modelo. Como fazê-lo imprimir um caminho de decisão de uma amostra específica? Por ...

1 a resposta

O CrossValidator não suporta o VectorUDT como rótulo no spark-ml

Eu tenho um problema com ml.crossvalidator no scala spark enquanto estiver usando um codificador quente. este é o meu código val tokenizer = new Tokenizer(). setInputCol("subjects"). setOutputCol("subject") //CountVectorizer / TF val ...

1 a resposta

Árvores impulsionadas por gradiente Spark ML que não usam todos os nós

Estou usando oSpark ML GBTClassifier [https://spark.apache.org/docs/2.2.0/api/python/pyspark.ml.html#pyspark.ml.classification.GBTClassifier] nopyspark para treinar um modelo de classificação binária em um dataframe com ~ 400k linhas e ~ 9k ...

1 a resposta

Como definir parâmetros para um PySpark Transformer personalizado, uma vez que é um estágio em um pipeline de ML instalado?

Eu escrevi um pipeline personalizado de MLEstimator eTransformer para o meu próprio algoritmo Python, seguindo o padrão mostradoaqui [https://stackoverflow.com/a/37279526/1843329]. No entanto, nesse exemplo, todos os parâmetros necessários ...

1 a resposta

Semelhança de string com a condição OR no MinHash Spark ML

Eu tenho dois conjuntos de dados, o primeiro é um grande conjunto de dados de referência e do segundo conjunto de dados encontrará a melhor correspondência do primeiro conjunto de dados através do algoritmo MinHash. val dataset1 = ...

1 a resposta

Servir previsões em tempo real com o modelo Spark ML treinado [duplicado]

Esta pergunta já tem uma resposta aqui: Como servir um modelo Spark MLlib? [/questions/40533582/how-to-serve-a-spark-mllib-model] 3 respostasNo momento, estamos testando um mecanismo de previsão baseado na implementação do LDA do Spark em ...

1 a resposta

Erro ao transmitir dados de um Dataframe para um ML VectorIndexerModel existente

Eu tenho um Dataframe que eu quero usar para previsão com um modelo existente. Eu recebo um erro ao usar o método de transformação do meu modelo. É assim que eu processo os dados de treinamento. forecast.printSchema()O esquema do meu ...

1 a resposta

Como entender o tipo de formato da libsvm do Spark MLlib?

Eu sou novo no aprendizado do Spark MLlib. Quando eu estava lendo sobre o exemplo de regressão logística binomial, não entendi o tipo de formato "libsvm". (Regressão logística ...

1 a resposta

O Pipeline Spark ML com RandomForest leva muito tempo no conjunto de dados de 20 MB

Estou usando o Spark ML para executar algumas experiências de ML e em um pequeno conjunto de dados de 20 MB (Conjunto de dados de poker [http://archive.ics.uci.edu/ml/machine-learning-databases/poker/poker-hand-testing.data] ) e uma Floresta ...