Suchergebnisse für Anfrage "apache-spark-mllib"
RDD zu LabeledPoint Konvertierung
Wenn ich eine RDD mit etwa 500 Spalten und 200 Millionen Zeilen habe undRDD.columns.indexOf("target", 0) zeigt anInt = 77 gibt an, dass sich meine abhängige Zielvariable unter der Spaltennummer 77 befindet. Ich habe jedoch nicht genügend ...
Spark mllib sagt seltsame Zahl oder NaN voraus
Ich bin neu in Apache Spark und versuche, mithilfe der maschinellen Lernbibliothek einige Daten vorherzusagen. Mein Datensatz im Moment ist nur etwa 350 Punkte. Hier sind 7 dieser Punkte: "365","4",41401.387,5330569 ...
So extrahieren Sie die besten Parameter aus einem CrossValidatorModel
Ich möchte die Parameter von @ findParamGridBuilder das beste Modell in CrossValidator in Spark 1.4.x machen, ImPipeline Example [http://spark.apache.org/docs/latest/ml-guide.html#example-model-selection-via-cross-validation] In der ...
Wie werden Tupel von (ursprüngliches Label, vorhergesagtes Label) auf Spark mit MLlib generiert?
Ich versuche, Vorhersagen mit dem Modell zu treffen, das ich über Spark von MLlib erhalten habe. Das Ziel besteht darin, Tupel von (orinalLabelInData, predictedLabel) zu generieren. Diese Tupel können dann zu Modellbewertungszwecken verwendet ...
Wie konvertiere ich eine Karte in Spark's RDD
Ich habe einen Datensatz in Form von verschachtelten Karten, und sein Scala-Typ lautet: Map[String, (LabelType,Map[Int, Double])]Der ErsteString key ist ein eindeutiger Bezeichner für jede Stichprobe, und der Wert ist ein Tupel, das die ...
Apache Spark MLlib Model File Format
Apache Spark MLlib-Algorithmen (z. B. Decision Trees) speichern das Modell an einem Ort (z. B.myModelPath) wo es zwei Verzeichnisse erstellt, nämlich.myModelPath/data undmyModelPath/metadata. In diesen Pfaden befinden sich mehrere Dateien, bei ...
Run 3000+ Random Forest Models nach Gruppe mit Spark MLlib Scala API
Ich versuche, mithilfe der Spark Scala-API zufällige Gesamtstrukturmodelle nach Gruppe (School_ID, mehr als 3 Tausend) für eine große Modell-Eingabe-CSV-Datei zu erstellen. Jede der Gruppen enthält ungefähr 3000-4000 Datensätze. Die mir zur ...
Wie wird der Naive Bayes-Klassifikator für die Textklassifizierung mit IDF verwendet?
Ich möchte Textdokumente mit tf-idf in Merkmalsvektoren konvertieren und dann einen naiven Bayes-Algorithmus trainieren, um sie zu klassifizieren. Ich kann meine Textdateien leicht ohne die Beschriftungen laden und sie mit HashingTF () in einen ...
Wie bekomme ich Wortdetails von TF Vector RDD in Spark ML Lib?
Ich habe Termhäufigkeit mit @ erstelHashingTF in Spark. Ich habe den Begriff Frequenzen mittf.transform für jedes Wort. Aber die Ergebnisse werden in diesem Format angezeigt. [<hashIndexofHashBucketofWord1>,<hashIndexofHashBucketofWord2> ...
Wie speichere ich Modelle von der ML-Pipeline in S3 oder HDFS?
Ich versuche, Tausende von Modellen zu retten, die von ML Pipeline hergestellt wurden. Wie in der Antwort @ angegebHie [https://stackoverflow.com/questions/32121046/run-3000-random-forest-models-by-group-using-spark-mllib-scala-api] können die ...