Suchergebnisse für Anfrage "apache-spark"

10 die antwort

Spark - Summe der Zeilenwerte

Ich habe den folgenden DataFrame: January | February | March ----------------------------- 10 | 10 | 10 20 | 20 | 20 50 | 50 | 50 Ich versuche, eine Spalte hinzuzufügen, die die Summe der Werte jeder Zeile ist. January | February | March | ...

2 die antwort

Ist es möglich, Daten in Spark nach Gruppen zu skalieren?

Ich möchte Daten mit @ skalierStandardScaler (from pyspark.mllib.feature import StandardScaler), jetzt kann ich es tun, indem ich die Werte von RDD an die Transformationsfunktion übergebe, aber das Problem ist, dass ich den Schlüssel beibehalten ...

8 die antwort

Filtern von Zeilen basierend auf Spaltenwerten in der Spark-Datenrahmenskala

Ich habe einen Datenrahmen (Funke): id value 3 0 3 1 3 0 4 1 4 0 4 0Ich möchte einen neuen Datenrahmen erstellen: 3 0 3 1 4 1Notwendig, alle Zeilen nach 1 (Wert) für jede ID zu entfernen. Ich habe es mit Fensterfunktionen in Spark Dateframe ...

TOP-Veröffentlichungen

4 die antwort

Wie man einen Encoder für einen Konstruktor vom Typ Option erstellt, z. Option [Int]?

Ist es möglich, @ zu verwendOption[_] member in einer Fallklasse, die mit der Dataset-API verwendet wird? z.B.Option[Int] Ich habe versucht, ein Beispiel zu finden, konnte aber noch kein Beispiel finden. Dies kann wahrscheinlich mit einem ...

6 die antwort

Spark Dataset API - Join

Ich versuche den Spark zu benutzen Dataset [https://databricks.com/blog/2016/01/04/introducing-spark-datasets.html] API, aber ich habe einige Probleme beim Ausführen eines einfachen Joins. Nehmen wir an, ich habe zwei Datensätze mit ...

18 die antwort

IllegalAccessError to guava's StopWatch from org.apache.hadoop.mapreduce.lib.input.FileInputFormat.listStatus

Ich versuche, eine kleine Funkenanwendung auszuführen, und erhalte die folgende Ausnahme: Exception in thread "main" java.lang.IllegalAccessError: tried to access method com.google.common.base.Stopwatch.<init>()V from ...

2 die antwort

Der Spark.Yarn.Driver.MemoryOverhead oder Spark.Yarn.Executor.MemoryOverhead wird verwendet, um welche Art von Daten zu speichern?

Ich habe mich gefragt, dass: spark benutze den spark.yarn.driver.memoryOverhead oder spark.yarn.executor.memoryOverhead, um welche Art von Daten zu speichern?Und in welchem Fall sollte ich den Wert von spark.yarn.driver.memoryOverhead ...

2 die antwort

Was ist der effizienteste Weg, um eine sortierte Reduzierung in PySpark durchzuführen?

Ich analysiere pünktliche Leistungsnachweise von US-Inlandsflügen aus dem Jahr 2015. Ich muss nach Schwanznummer gruppieren und eine nach Datum sortierte Liste aller Flüge für jede Schwanznummer in einer Datenbank speichern, um von ...

2 die antwort

Finden Sie das Minimum für einen Zeitstempel über Spark groupBy dataframe

Wenn ich versuche, meinen Datenrahmen in einer Spalte zu gruppieren, versuche ich, das Minimum für jede Gruppierung zu findengroupbyDatafram.min('timestampCol') es scheint, ich kann es nicht für nicht numerische Spalten tun. Wie kann ich dann das ...

2 die antwort

Wie wähle ich eine Teilmenge von Feldern aus einer Array-Spalte in Spark aus?

Sagen wir, ich habe einen DataFrame wie folgt: case class SubClass(id:String, size:Int,useless:String) case class MotherClass(subClasss: Array[SubClass]) val df = sqlContext.createDataFrame(List( ...