Suchergebnisse für Anfrage "apache-spark"
Spark Lesen von Python3 Pickle als Eingabe
Meine Daten sind als Sätze von Python 3-Dateien verfügbar. Die meisten von ihnen sind Serialisierung von PandasDataFrames. Ich würde gerne Spark verwenden, da ich mehr Arbeitsspeicher und CPU benötige, die ein Computer haben kann. Außerdem ...
Pyspark: Vorwärtsfüllung mit letzter Beobachtung für einen DataFrame
Mit Spark 1.5.1, Ich habe versucht, füllen @ weiterzuleitnull values mit der letzten bekannten Beobachtung füreine Spalte meines DataFrame. Es ist möglich, mit einem Nullwert zu beginnen, und in diesem Fall würde ich diesen Nullwert mit der ...
Spark SQL-Abfrageausführung auf Hive
Ich bin neu in Spark SQL, kenne aber das Framework für die Ausführung von Hive-Abfragen. Ich möchte verstehen, wie Spark SQL-Abfragen ausführt (technische Beschreibung). Wenn ich unter Befehl feuere val sqlContext = new ...
Wie übergebe ich ein Programmargument an die Hauptfunktion beim Ausführen von spark-submit mit einer JAR?
Ich weiß, dass dies eine triviale Frage ist, aber ich konnte die Antwort nicht im Internet finden. Ich versuche, eine Java-Klasse mit dem @ auszuführmain -Funktion mit Programmargumenten String[] args). Allerdings, wenn ich den Job mit @ ...
PySpark: Einzelne Datei beim Schreiben ausspucken anstatt mehrere Teiledateien
Gibt es eine Möglichkeit zu verhindern, dass PySpark beim Schreiben eines DataFrame in eine JSON-Datei mehrere kleine Dateien erstellt? Wenn ich laufe: df.write.format('json').save('myfile.json')ode df1.write.json('myfile.json')it erstellt ...
Sollte ich cran r-Pakete auf Worker-Knoten vorinstallieren, wenn sparkr @ verwendet wir
Ich möchte r-Pakete auf cran wie @ verwendforecast etc mit sparkr und treffen folgende zwei probleme. Sollte ich alle diese Pakete auf Arbeitsknoten vorinstallieren? Aber wenn ich den Quellcode von spark @ leDiese ...
Wie kann das Modell spark.ml ohne DataFrames / SparkContext bewertet werden?
it Spark MLLib würde ich ein Modell bauen (wieRandomForest), und dann konnte es außerhalb von Spark ausgewertet werden, indem das Modell geladen und @ verwendet wurdpredict darauf vorbei einen Vektor von Funktionen. Es scheint wie mit Spark ...
Unterstützt spark-sql mehrere Begrenzer in den Eingabedaten?
Ich habe Eingabedaten mit mehreren einzelnen Zeichenbegrenzern wie folgt: col1data1"col2data1;col3data1"col4data1 col1data2"col2data2;col3data2"col4data2 col1data3"col2data3;col3data3"col4data3In den obigen Daten sind die ["], [;] meine ...
Wie listet man in PySpark 1.5.0 alle Elemente der Spalte `y` auf der Grundlage der Werte der Spalte` x` auf?
Die folgende Frage bezieht sich speziell auf Version 1.5.0 von PySpark, da PySpark ständig um neue Funktionen erweitert wird. Wie listest du alle Elemente der Spalte @ auy basierend auf den Werten der Spaltex? Beispielsweise rdd = ...
Wie erhalte ich Klassifizierungswahrscheinlichkeiten von MultilayerPerceptronClassifier?
Dies scheint am meisten mit Folgendem zu tun zu haben:Wie wird die Wahrscheinlichkeit pro Instanz in Klassifikationsmodellen in ...