Suchergebnisse für Anfrage "apache-spark-mllib"
Wie erhalte ich mit CrossValidator Präzision / Rückruf für das Training des NaiveBayes-Modells mit Spark
Supossed Ich habe eine Pipeline wie diese: val tokenizer = new Tokenizer().setInputCol("tweet").setOutputCol("words") val hashingTF = new HashingTF().setNumFeatures(1000).setInputCol("words").setOutputCol("features") val idf = new ...
Wie konvertiere ich eine Karte in Spark's RDD
Ich habe einen Datensatz in Form von verschachtelten Karten, und sein Scala-Typ lautet: Map[String, (LabelType,Map[Int, Double])]Der ErsteString key ist ein eindeutiger Bezeichner für jede Stichprobe, und der Wert ist ein Tupel, das die ...
Understanding Spark RandomForest featureImportances results
Ich benutzeRandomForest.featureImportances aber ich verstehe das Ausgabeergebnis nicht. Ich habe 12 Funktionen und dies ist die Ausgabe, die ich erhalte. Ich verstehe, dass dies möglicherweise keine Apache-Spark-spezifische Frage ist, aber ich ...
Spark MLlib: Klassifikatoren für jede Datengruppe erstellen
Ich habe Vektoren (LabeledPoint-s) mit einer Gruppennummer markiert. Für jede Gruppe muss ich @ erstellein separate Logistic Regression Classifier: import org.apache.log4j.{Level, Logger} ...
Wie kann ich mein Empfehlungsergebnis verbessern? Ich benutze Funken ALS implizit
Zunächst habe ich eine Verwendungshistorie der Benutzer-App. Beispielsweise user1, app1, 3 (Startzeiten) user2, app2, 2 (Startzeiten) user3, app1, 1 (Startzeiten) Ich habe grundsätzlich zwei Forderungen: Empfehlen Sie jedem Benutzer eine ...
Apache Spark - MlLib - Kollaboratives Filtern
Ich versuche, MlLib für meine kolloborative Filterung zu verwenden. In meinem Scala-Programm tritt der folgende Fehler auf, wenn ich es in Apache Spark 1.0.0 ausführe. 14/07/15 16:16:31 WARN NativeCodeLoader: Unable to load native-hadoop ...
Spark CrossValidatorModel Zugriff auf andere Modelle als das bestModel?
Ich verwende Spark 1.6.1: Zur Zeit benutze ich einen CrossValidator, um meine ML-Pipeline mit verschiedenen Parametern zu trainieren. Nach dem Trainingsprozess kann ich die Eigenschaft bestModel des CrossValidatorModel verwenden, um das Modell ...
Wie speichere ich Modelle von der ML-Pipeline in S3 oder HDFS?
Ich versuche, Tausende von Modellen zu retten, die von ML Pipeline hergestellt wurden. Wie in der Antwort @ angegebHie [https://stackoverflow.com/questions/32121046/run-3000-random-forest-models-by-group-using-spark-mllib-scala-api] können die ...
Darstellung der Vektorspalte in Spark SQL verstehen
Bevor ich mit VectorAssembler () einige kategoriale OneHotEncoded-Features konsolidiert habe ... sah mein Datenrahmen folgendermaßen aus: | Numerical| HotEncoded1| HotEncoded2 | 14460.0| (44,[5],[1.0])| (3,[0],[1.0])| | 14460.0| (44,[9],[1.0])| ...
Sparse Vector vs Dense Vector
Wie erstelle ichSparseVector und dichte Vektordarstellungen wenn dasDenseVector ist: denseV = np.array([0., 3., 0., 4.])Was wird die Sparse Vector-Darstellung sein?