Suchergebnisse für Anfrage "apache-spark-ml"

2 die antwort

Zwischenergebnisse in der Spark ML-Pipeline zwischenspeichern

In letzter Zeit plane ich, meinen eigenständigen Python-ML-Code zu migrieren, um zu funken. Die ML-Pipeline inspark.ml ist sehr praktisch, mit einer optimierten API zum Verketten von Algorithmusstufen und zur Suche ...

6 die antwort

Wie speichere ich Modelle von der ML-Pipeline in S3 oder HDFS?

Ich versuche, Tausende von Modellen zu retten, die von ML Pipeline hergestellt wurden. Wie in der Antwort @ angegebHie [https://stackoverflow.com/questions/32121046/run-3000-random-forest-models-by-group-using-spark-mllib-scala-api] können die ...

4 die antwort

SPARK, ML, Tuning, CrossValidator: Zugriff auf die Metriken

Um einen NaiveBayes-Klassifikator für mehrere Klassen zu erstellen, verwende ich einen CrossValidator, um die besten Parameter in meiner Pipeline auszuwählen: val cv = new CrossValidator() ...

TOP-Veröffentlichungen

2 die antwort

Wie erhalte ich mit CrossValidator Präzision / Rückruf für das Training des NaiveBayes-Modells mit Spark

Supossed Ich habe eine Pipeline wie diese: val tokenizer = new Tokenizer().setInputCol("tweet").setOutputCol("words") val hashingTF = new HashingTF().setNumFeatures(1000).setInputCol("words").setOutputCol("features") val idf = new ...

6 die antwort

Wie erstelle ich einen benutzerdefinierten Transformer aus einer UDF?

Ich habe versucht, ein @ zu erstellen und zu speicherPipelin [https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.ml.Pipeline] mit benutzerdefinierten Stufen. Ich muss ein @ hinzufügcolumn zu meinemDataFrame mit einemUDF. ...

2 die antwort

Abstand anpassen Formular von K-means in Apache Spark Python

etzt verwende ich K-means zum Clustering und folgedieses Tutorial [http://spark.apache.org/docs/latest/mllib-clustering.html] und API [https://spark.apache.org/docs/1.0.0/api/python/pyspark.mllib.clustering-module.html] . Aber ich möchte eine ...

2 die antwort

Wie bekomme ich Wortdetails von TF Vector RDD in Spark ML Lib?

Ich habe Termhäufigkeit mit @ erstelHashingTF in Spark. Ich habe den Begriff Frequenzen mittf.transform für jedes Wort. Aber die Ergebnisse werden in diesem Format angezeigt. [<hashIndexofHashBucketofWord1>,<hashIndexofHashBucketofWord2> ...

2 die antwort

Spark ML - Speichern Sie OneVsRestModel

Ich bin gerade dabei, meinen Code umzugestalten, um die Vorteile von @ zu nutze DataFrames, Estimators und Pipelines [http://spark.apache.org/docs/latest/ml-guide.html]. Ich habe ursprünglich @ verwendMLlib Multiclass ...

2 die antwort

Spark ML Pipeline Logistic Regression liefert viel schlimmere Vorhersagen als R GLM

Ich habe ML PipeLine verwendet, um logistische Regressionsmodelle auszuführen, aber aus bestimmten Gründen habe ich die schlechtesten Ergebnisse erzielt als R. Ich habe einige Nachforschungen angestellt, und der einzige Beitrag, bei dem ...

2 die antwort

Darstellung der Vektorspalte in Spark SQL verstehen

Bevor ich mit VectorAssembler () einige kategoriale OneHotEncoded-Features konsolidiert habe ... sah mein Datenrahmen folgendermaßen aus: | Numerical| HotEncoded1| HotEncoded2 | 14460.0| (44,[5],[1.0])| (3,[0],[1.0])| | 14460.0| (44,[9],[1.0])| ...