Suchergebnisse für Anfrage "apache-spark-mllib"

8 die antwort

Wie gehe ich mit Spark-ml mit kategorialen Features um?

Wie gehe ich mit kategorialen Daten mit @ u spark-ml und nich spark-mllib ? Obwohl die Dokumentation nicht sehr klar ist, scheinen Klassifikatoren, z.RandomForestClassifier, LogisticRegression, haben einefeaturesCol Argument, das den Namen der ...

2 die antwort

Spark Datentyp guesser UDAF

Wollte so etwas nehmenhttps: //github.com/fitzscott/AirQuality/blob/master/HiveDataTypeGuesser.jav [https://github.com/fitzscott/AirQuality/blob/master/HiveDataTypeGuesser.java] und erstellen Sie eine Hive-UDAF, um eine Aggregatfunktion zu ...

6 die antwort

Wie konvertiere ich ein RDD mit einer SparseVector-Spalte in einen DataFrame mit einer Spalte als Vector

Ich habe ein RDD mit einem Tupel von Werten (String, SparseVector) und ich möchte ein @ erstell DataFrame Verwendung der RDD. Um ein (label: string, features: vector) @ zu erhalt DataFrame ist das Schema, das von den meisten Bibliotheken des ...

TOP-Veröffentlichungen

2 die antwort

Encode und Assemblieren mehrerer Funktionen in PySpark

Ich habe eine Python-Klasse, mit der ich einige Daten in Spark lade und verarbeite. Unter anderem muss ich eine Liste von Dummy-Variablen generieren, die aus verschiedenen Spalten in einem Spark-Datenrahmen abgeleitet wurden. Mein Problem ist, ...

6 die antwort

Spark DataFrame übergibt leere Zeichenfolge in OneHotEncoder

Ich importiere eine CSV-Datei (mit spark-csv) in einDataFrame das hat leerString Werte. Bei Anwendung desOneHotEncoder, die Anwendung stürzt mit Fehler @ requirement failed: Cannot have an empty string for name.. Kann ich das umgehen? Ich konnte ...

6 die antwort

Konvertieren von RDD [org.apache.spark.sql.Row] in RDD [org.apache.spark.mllib.linalg.Vector]

Ich bin relativ neu bei Spark und Scala. Ich beginne mit dem folgenden Datenrahmen (einzelne Spalte aus einem dichten Doppelvektor): scala> val scaledDataOnly_pruned = scaledDataOnly.select("features") scaledDataOnly_pruned: ...

4 die antwort

Spark 1.5.1, MLLib Random Forest Probability

Ich verwende Spark 1.5.1 mit MLLib. Ich habe mit MLLib ein zufälliges Waldmodell erstellt und benutze dieses Modell nun zur Vorhersage. Ich kann die Vorhersagekategorie (0.0 oder 1.0) mit der Funktion .predict finden. Ich kann jedoch die Funktion ...

2 die antwort

Spark nutzt nicht den gesamten Core, während LinearRegressionwithSGD ausgeführt wird

Ich verwende Spark auf meinem lokalen Computer (16 G, 8 CPU-Kerne). Ich habe versucht, ein lineares Regressionsmodell für einen Datensatz mit einer Größe von 300 MB zu trainieren. Ich habe die CPU-Statistiken und auch die laufenden Programme ...

2 die antwort

Matrix-Multiplikation in Apache Spark [geschlossen]

ch versuche, eine Matrixmultiplikation mit Apache Spark und Java durchzuführe Ich habe 2 Hauptfragen: Wie erstelle ich ein RDD, das eine Matrix in Apache Spark darstellen kann?Wie multipliziere ich zwei solche RDDs?

6 die antwort

Spark: Schwellenwert und Genauigkeit des Regressionsmodells

Ich habe einen logistischen Regressionsmodus, in dem ich den Schwellenwert explizit auf 0,5 festgelegt habe. model.setThreshold(0.5)Ich trainiere das Modell und dann möchte ich grundlegende Statistiken erhalten - Präzision, Rückruf usw. Das ...