Suchergebnisse für Anfrage "apache-spark-mllib"

2 die antwort

RDD zu LabeledPoint Konvertierung

Wenn ich eine RDD mit etwa 500 Spalten und 200 Millionen Zeilen habe undRDD.columns.indexOf("target", 0) zeigt anInt = 77 gibt an, dass sich meine abhängige Zielvariable unter der Spaltennummer 77 befindet. Ich habe jedoch nicht genügend ...

2 die antwort

Spark mllib sagt seltsame Zahl oder NaN voraus

Ich bin neu in Apache Spark und versuche, mithilfe der maschinellen Lernbibliothek einige Daten vorherzusagen. Mein Datensatz im Moment ist nur etwa 350 Punkte. Hier sind 7 dieser Punkte: "365","4",41401.387,5330569 ...

16 die antwort

So extrahieren Sie die besten Parameter aus einem CrossValidatorModel

Ich möchte die Parameter von @ findParamGridBuilder das beste Modell in CrossValidator in Spark 1.4.x machen, ImPipeline Example [http://spark.apache.org/docs/latest/ml-guide.html#example-model-selection-via-cross-validation] In der ...

TOP-Veröffentlichungen

2 die antwort

Wie werden Tupel von (ursprüngliches Label, vorhergesagtes Label) auf Spark mit MLlib generiert?

Ich versuche, Vorhersagen mit dem Modell zu treffen, das ich über Spark von MLlib erhalten habe. Das Ziel besteht darin, Tupel von (orinalLabelInData, predictedLabel) zu generieren. Diese Tupel können dann zu Modellbewertungszwecken verwendet ...

4 die antwort

Wie konvertiere ich eine Karte in Spark's RDD

Ich habe einen Datensatz in Form von verschachtelten Karten, und sein Scala-Typ lautet: Map[String, (LabelType,Map[Int, Double])]Der ErsteString key ist ein eindeutiger Bezeichner für jede Stichprobe, und der Wert ist ein Tupel, das die ...

2 die antwort

Apache Spark MLlib Model File Format

Apache Spark MLlib-Algorithmen (z. B. Decision Trees) speichern das Modell an einem Ort (z. B.myModelPath) wo es zwei Verzeichnisse erstellt, nämlich.myModelPath/data undmyModelPath/metadata. In diesen Pfaden befinden sich mehrere Dateien, bei ...

2 die antwort

Run 3000+ Random Forest Models nach Gruppe mit Spark MLlib Scala API

Ich versuche, mithilfe der Spark Scala-API zufällige Gesamtstrukturmodelle nach Gruppe (School_ID, mehr als 3 Tausend) für eine große Modell-Eingabe-CSV-Datei zu erstellen. Jede der Gruppen enthält ungefähr 3000-4000 Datensätze. Die mir zur ...

2 die antwort

Wie wird der Naive Bayes-Klassifikator für die Textklassifizierung mit IDF verwendet?

Ich möchte Textdokumente mit tf-idf in Merkmalsvektoren konvertieren und dann einen naiven Bayes-Algorithmus trainieren, um sie zu klassifizieren. Ich kann meine Textdateien leicht ohne die Beschriftungen laden und sie mit HashingTF () in einen ...

2 die antwort

Wie bekomme ich Wortdetails von TF Vector RDD in Spark ML Lib?

Ich habe Termhäufigkeit mit @ erstelHashingTF in Spark. Ich habe den Begriff Frequenzen mittf.transform für jedes Wort. Aber die Ergebnisse werden in diesem Format angezeigt. [<hashIndexofHashBucketofWord1>,<hashIndexofHashBucketofWord2> ...

6 die antwort

Wie speichere ich Modelle von der ML-Pipeline in S3 oder HDFS?

Ich versuche, Tausende von Modellen zu retten, die von ML Pipeline hergestellt wurden. Wie in der Antwort @ angegebHie [https://stackoverflow.com/questions/32121046/run-3000-random-forest-models-by-group-using-spark-mllib-scala-api] können die ...