Suchergebnisse für Anfrage "spark-dataframe"
Spezifische Partitionen in der Spark-Dataframe-Schreibmethode überschreiben
Ich möchte bestimmte Partitionen überschreiben, anstatt alle in Spark. Ich versuche den folgenden Befehl: df.write.orc('maprfs:///hdfs-base-path','overwrite',partitionBy='col4')wobei df ein Datenrahmen ist, dessen inkrementelle Daten ...
Lesen Sie aus einer Hive-Tabelle und schreiben Sie mit spark sql @ darauf zurüc
Ich lese eine Hive-Tabelle mit Spark SQL und ordne sie einer Scala zu. val x = sqlContext.sql("select * from some_table")Dann bearbeite ich den Datenrahmen x und erstelle schließlich einen Datenrahmen y, der das genaue Schema wie die Tabelle ...
Convert Spark DataFrame-Spalte in Python-Liste
Ich arbeite an einem Datenrahmen mit zwei Spalten, mvv und count. +---+-----+ |mvv|count| +---+-----+ | 1 | 5 | | 2 | 9 | | 3 | 3 | | 4 | 1 |i möchte zwei Listen erhalten, die MVV-Werte und Zählwerte enthalten. Etwas wi mvv = [1,2,3,4] count = ...
So filtern Sie Daten mithilfe von Fensterfunktionen in spark
Ich habe folgende Daten: rowid uid time code 1 1 5 a 2 1 6 b 3 1 7 c 4 2 8 a 5 2 9 c 6 2 9 c 7 2 10 c 8 2 11 a 9 2 12 c Jetzt wollte ich die Daten so filtern, dass ich die Zeilen 6 und 7 entfernen kann, da ich für eine bestimmte UID nur eine ...
Mit Spark DataFrame unterschiedliche Werte in einer Spalte abrufen
Verwenden von Spark 1.6.1 Ich muss bestimmte Werte für eine Spalte abrufen und dann eine bestimmte Transformation darüber durchführen. Die Spalte enthält mehr als 50 Millionen Datensätze und kann größer werden. Ich verstehe, dass ein @ zu ...
Apache Spark Umgang mit verzerrten Daten
Ich habe zwei Tische, die ich zusammenfügen möchte. Einer von ihnen hat einen sehr schlechten Datenfehler. Dies führt dazu, dass mein Spark-Job nicht parallel ausgeführt wird, da ein Großteil der Arbeit auf einer Partition ausgeführt wird. Ich ...
Pyspark: Histogramm einer Datenrahmenspalte anzeigen
Im Pandas-Datenrahmen verwende ich den folgenden Code, um das Histogramm einer Spalte zu zeichnen: my_df.hist(column = 'field_1') Gibt es etwas, das das gleiche Ziel im Pyspark-Datenrahmen erreichen kann? (Ich bin in Jupyter Notebook) Danke!
Filterfunken / Scala-Datenrahmen, wenn Spalte in Gruppe vorhanden ist
Ich verwende Spark 1.4.0, das habe ich bisher: data.filter($"myColumn".in(lit("A"), lit("B"), lit("C"), ...))Die Funktionzündet [https://spark.apache.org/docs/1.4.0/api/java/org/apache/spark/sql/functions.html#lit(java.lang.Object)] ...
Bestimmen der optimalen Anzahl von Spark-Partitionen basierend auf Worker, Cores und DataFrame-Größe
In Spark-Land gibt es mehrere ähnliche, aber unterschiedliche Konzepte, wie die Arbeit auf verschiedene Knoten verteilt und gleichzeitig ausgeführt wird. Im Einzelnen gibt es: Der Spark-Treiberknoten sparkDriverCount) Die Anzahl der ...
Wie erzwinge ich, dass Spark DataFrame-Vorgänge inline auswertet?
Laut demSpark RDD docs [http://spark.apache.org/docs/latest/programming-guide.html#rdd-operations]: Alle Transformationen in Spark sind insofern faul, als sie ihre Ergebnisse nicht sofort berechnen ... Durch dieses Design kann Spark effizienter ...