Suchergebnisse für Anfrage "apache-spark-ml"
Zwischenergebnisse in der Spark ML-Pipeline zwischenspeichern
In letzter Zeit plane ich, meinen eigenständigen Python-ML-Code zu migrieren, um zu funken. Die ML-Pipeline inspark.ml ist sehr praktisch, mit einer optimierten API zum Verketten von Algorithmusstufen und zur Suche ...
Wie speichere ich Modelle von der ML-Pipeline in S3 oder HDFS?
Ich versuche, Tausende von Modellen zu retten, die von ML Pipeline hergestellt wurden. Wie in der Antwort @ angegebHie [https://stackoverflow.com/questions/32121046/run-3000-random-forest-models-by-group-using-spark-mllib-scala-api] können die ...
SPARK, ML, Tuning, CrossValidator: Zugriff auf die Metriken
Um einen NaiveBayes-Klassifikator für mehrere Klassen zu erstellen, verwende ich einen CrossValidator, um die besten Parameter in meiner Pipeline auszuwählen: val cv = new CrossValidator() ...
Wie erhalte ich mit CrossValidator Präzision / Rückruf für das Training des NaiveBayes-Modells mit Spark
Supossed Ich habe eine Pipeline wie diese: val tokenizer = new Tokenizer().setInputCol("tweet").setOutputCol("words") val hashingTF = new HashingTF().setNumFeatures(1000).setInputCol("words").setOutputCol("features") val idf = new ...
Wie erstelle ich einen benutzerdefinierten Transformer aus einer UDF?
Ich habe versucht, ein @ zu erstellen und zu speicherPipelin [https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.ml.Pipeline] mit benutzerdefinierten Stufen. Ich muss ein @ hinzufügcolumn zu meinemDataFrame mit einemUDF. ...
Abstand anpassen Formular von K-means in Apache Spark Python
etzt verwende ich K-means zum Clustering und folgedieses Tutorial [http://spark.apache.org/docs/latest/mllib-clustering.html] und API [https://spark.apache.org/docs/1.0.0/api/python/pyspark.mllib.clustering-module.html] . Aber ich möchte eine ...
Wie bekomme ich Wortdetails von TF Vector RDD in Spark ML Lib?
Ich habe Termhäufigkeit mit @ erstelHashingTF in Spark. Ich habe den Begriff Frequenzen mittf.transform für jedes Wort. Aber die Ergebnisse werden in diesem Format angezeigt. [<hashIndexofHashBucketofWord1>,<hashIndexofHashBucketofWord2> ...
Spark ML - Speichern Sie OneVsRestModel
Ich bin gerade dabei, meinen Code umzugestalten, um die Vorteile von @ zu nutze DataFrames, Estimators und Pipelines [http://spark.apache.org/docs/latest/ml-guide.html]. Ich habe ursprünglich @ verwendMLlib Multiclass ...
Spark ML Pipeline Logistic Regression liefert viel schlimmere Vorhersagen als R GLM
Ich habe ML PipeLine verwendet, um logistische Regressionsmodelle auszuführen, aber aus bestimmten Gründen habe ich die schlechtesten Ergebnisse erzielt als R. Ich habe einige Nachforschungen angestellt, und der einzige Beitrag, bei dem ...
Darstellung der Vektorspalte in Spark SQL verstehen
Bevor ich mit VectorAssembler () einige kategoriale OneHotEncoded-Features konsolidiert habe ... sah mein Datenrahmen folgendermaßen aus: | Numerical| HotEncoded1| HotEncoded2 | 14460.0| (44,[5],[1.0])| (3,[0],[1.0])| | 14460.0| (44,[9],[1.0])| ...