Suchergebnisse für Anfrage "apache-spark"
Spark - Summe der Zeilenwerte
Ich habe den folgenden DataFrame: January | February | March ----------------------------- 10 | 10 | 10 20 | 20 | 20 50 | 50 | 50 Ich versuche, eine Spalte hinzuzufügen, die die Summe der Werte jeder Zeile ist. January | February | March | ...
Ist es möglich, Daten in Spark nach Gruppen zu skalieren?
Ich möchte Daten mit @ skalierStandardScaler (from pyspark.mllib.feature import StandardScaler), jetzt kann ich es tun, indem ich die Werte von RDD an die Transformationsfunktion übergebe, aber das Problem ist, dass ich den Schlüssel beibehalten ...
Filtern von Zeilen basierend auf Spaltenwerten in der Spark-Datenrahmenskala
Ich habe einen Datenrahmen (Funke): id value 3 0 3 1 3 0 4 1 4 0 4 0Ich möchte einen neuen Datenrahmen erstellen: 3 0 3 1 4 1Notwendig, alle Zeilen nach 1 (Wert) für jede ID zu entfernen. Ich habe es mit Fensterfunktionen in Spark Dateframe ...
Wie man einen Encoder für einen Konstruktor vom Typ Option erstellt, z. Option [Int]?
Ist es möglich, @ zu verwendOption[_] member in einer Fallklasse, die mit der Dataset-API verwendet wird? z.B.Option[Int] Ich habe versucht, ein Beispiel zu finden, konnte aber noch kein Beispiel finden. Dies kann wahrscheinlich mit einem ...
Spark Dataset API - Join
Ich versuche den Spark zu benutzen Dataset [https://databricks.com/blog/2016/01/04/introducing-spark-datasets.html] API, aber ich habe einige Probleme beim Ausführen eines einfachen Joins. Nehmen wir an, ich habe zwei Datensätze mit ...
IllegalAccessError to guava's StopWatch from org.apache.hadoop.mapreduce.lib.input.FileInputFormat.listStatus
Ich versuche, eine kleine Funkenanwendung auszuführen, und erhalte die folgende Ausnahme: Exception in thread "main" java.lang.IllegalAccessError: tried to access method com.google.common.base.Stopwatch.<init>()V from ...
Der Spark.Yarn.Driver.MemoryOverhead oder Spark.Yarn.Executor.MemoryOverhead wird verwendet, um welche Art von Daten zu speichern?
Ich habe mich gefragt, dass: spark benutze den spark.yarn.driver.memoryOverhead oder spark.yarn.executor.memoryOverhead, um welche Art von Daten zu speichern?Und in welchem Fall sollte ich den Wert von spark.yarn.driver.memoryOverhead ...
Was ist der effizienteste Weg, um eine sortierte Reduzierung in PySpark durchzuführen?
Ich analysiere pünktliche Leistungsnachweise von US-Inlandsflügen aus dem Jahr 2015. Ich muss nach Schwanznummer gruppieren und eine nach Datum sortierte Liste aller Flüge für jede Schwanznummer in einer Datenbank speichern, um von ...
Finden Sie das Minimum für einen Zeitstempel über Spark groupBy dataframe
Wenn ich versuche, meinen Datenrahmen in einer Spalte zu gruppieren, versuche ich, das Minimum für jede Gruppierung zu findengroupbyDatafram.min('timestampCol') es scheint, ich kann es nicht für nicht numerische Spalten tun. Wie kann ich dann das ...
Wie wähle ich eine Teilmenge von Feldern aus einer Array-Spalte in Spark aus?
Sagen wir, ich habe einen DataFrame wie folgt: case class SubClass(id:String, size:Int,useless:String) case class MotherClass(subClasss: Array[SubClass]) val df = sqlContext.createDataFrame(List( ...