Suchergebnisse für Anfrage "apache-spark-mllib"
Wie gehe ich mit Spark-ml mit kategorialen Features um?
Wie gehe ich mit kategorialen Daten mit @ u spark-ml und nich spark-mllib ? Obwohl die Dokumentation nicht sehr klar ist, scheinen Klassifikatoren, z.RandomForestClassifier, LogisticRegression, haben einefeaturesCol Argument, das den Namen der ...
Spark Datentyp guesser UDAF
Wollte so etwas nehmenhttps: //github.com/fitzscott/AirQuality/blob/master/HiveDataTypeGuesser.jav [https://github.com/fitzscott/AirQuality/blob/master/HiveDataTypeGuesser.java] und erstellen Sie eine Hive-UDAF, um eine Aggregatfunktion zu ...
Wie konvertiere ich ein RDD mit einer SparseVector-Spalte in einen DataFrame mit einer Spalte als Vector
Ich habe ein RDD mit einem Tupel von Werten (String, SparseVector) und ich möchte ein @ erstell DataFrame Verwendung der RDD. Um ein (label: string, features: vector) @ zu erhalt DataFrame ist das Schema, das von den meisten Bibliotheken des ...
Encode und Assemblieren mehrerer Funktionen in PySpark
Ich habe eine Python-Klasse, mit der ich einige Daten in Spark lade und verarbeite. Unter anderem muss ich eine Liste von Dummy-Variablen generieren, die aus verschiedenen Spalten in einem Spark-Datenrahmen abgeleitet wurden. Mein Problem ist, ...
Spark DataFrame übergibt leere Zeichenfolge in OneHotEncoder
Ich importiere eine CSV-Datei (mit spark-csv) in einDataFrame das hat leerString Werte. Bei Anwendung desOneHotEncoder, die Anwendung stürzt mit Fehler @ requirement failed: Cannot have an empty string for name.. Kann ich das umgehen? Ich konnte ...
Konvertieren von RDD [org.apache.spark.sql.Row] in RDD [org.apache.spark.mllib.linalg.Vector]
Ich bin relativ neu bei Spark und Scala. Ich beginne mit dem folgenden Datenrahmen (einzelne Spalte aus einem dichten Doppelvektor): scala> val scaledDataOnly_pruned = scaledDataOnly.select("features") scaledDataOnly_pruned: ...
Spark 1.5.1, MLLib Random Forest Probability
Ich verwende Spark 1.5.1 mit MLLib. Ich habe mit MLLib ein zufälliges Waldmodell erstellt und benutze dieses Modell nun zur Vorhersage. Ich kann die Vorhersagekategorie (0.0 oder 1.0) mit der Funktion .predict finden. Ich kann jedoch die Funktion ...
Spark nutzt nicht den gesamten Core, während LinearRegressionwithSGD ausgeführt wird
Ich verwende Spark auf meinem lokalen Computer (16 G, 8 CPU-Kerne). Ich habe versucht, ein lineares Regressionsmodell für einen Datensatz mit einer Größe von 300 MB zu trainieren. Ich habe die CPU-Statistiken und auch die laufenden Programme ...
Matrix-Multiplikation in Apache Spark [geschlossen]
ch versuche, eine Matrixmultiplikation mit Apache Spark und Java durchzuführe Ich habe 2 Hauptfragen: Wie erstelle ich ein RDD, das eine Matrix in Apache Spark darstellen kann?Wie multipliziere ich zwei solche RDDs?
Spark: Schwellenwert und Genauigkeit des Regressionsmodells
Ich habe einen logistischen Regressionsmodus, in dem ich den Schwellenwert explizit auf 0,5 festgelegt habe. model.setThreshold(0.5)Ich trainiere das Modell und dann möchte ich grundlegende Statistiken erhalten - Präzision, Rückruf usw. Das ...