Suchergebnisse für Anfrage "spark-dataframe"

18 die antwort

Spezifische Partitionen in der Spark-Dataframe-Schreibmethode überschreiben

Ich möchte bestimmte Partitionen überschreiben, anstatt alle in Spark. Ich versuche den folgenden Befehl: df.write.orc('maprfs:///hdfs-base-path','overwrite',partitionBy='col4')wobei df ein Datenrahmen ist, dessen inkrementelle Daten ...

6 die antwort

Lesen Sie aus einer Hive-Tabelle und schreiben Sie mit spark sql @ darauf zurüc

Ich lese eine Hive-Tabelle mit Spark SQL und ordne sie einer Scala zu. val x = sqlContext.sql("select * from some_table")Dann bearbeite ich den Datenrahmen x und erstelle schließlich einen Datenrahmen y, der das genaue Schema wie die Tabelle ...

10 die antwort

Convert Spark DataFrame-Spalte in Python-Liste

Ich arbeite an einem Datenrahmen mit zwei Spalten, mvv und count. +---+-----+ |mvv|count| +---+-----+ | 1 | 5 | | 2 | 9 | | 3 | 3 | | 4 | 1 |i möchte zwei Listen erhalten, die MVV-Werte und Zählwerte enthalten. Etwas wi mvv = [1,2,3,4] count = ...

TOP-Veröffentlichungen

2 die antwort

So filtern Sie Daten mithilfe von Fensterfunktionen in spark

Ich habe folgende Daten: rowid uid time code 1 1 5 a 2 1 6 b 3 1 7 c 4 2 8 a 5 2 9 c 6 2 9 c 7 2 10 c 8 2 11 a 9 2 12 c Jetzt wollte ich die Daten so filtern, dass ich die Zeilen 6 und 7 entfernen kann, da ich für eine bestimmte UID nur eine ...

2 die antwort

Mit Spark DataFrame unterschiedliche Werte in einer Spalte abrufen

Verwenden von Spark 1.6.1 Ich muss bestimmte Werte für eine Spalte abrufen und dann eine bestimmte Transformation darüber durchführen. Die Spalte enthält mehr als 50 Millionen Datensätze und kann größer werden. Ich verstehe, dass ein @ zu ...

2 die antwort

Apache Spark Umgang mit verzerrten Daten

Ich habe zwei Tische, die ich zusammenfügen möchte. Einer von ihnen hat einen sehr schlechten Datenfehler. Dies führt dazu, dass mein Spark-Job nicht parallel ausgeführt wird, da ein Großteil der Arbeit auf einer Partition ausgeführt wird. Ich ...

8 die antwort

Pyspark: Histogramm einer Datenrahmenspalte anzeigen

Im Pandas-Datenrahmen verwende ich den folgenden Code, um das Histogramm einer Spalte zu zeichnen: my_df.hist(column = 'field_1') Gibt es etwas, das das gleiche Ziel im Pyspark-Datenrahmen erreichen kann? (Ich bin in Jupyter Notebook) Danke!

4 die antwort

Filterfunken / Scala-Datenrahmen, wenn Spalte in Gruppe vorhanden ist

Ich verwende Spark 1.4.0, das habe ich bisher: data.filter($"myColumn".in(lit("A"), lit("B"), lit("C"), ...))Die Funktionzündet [https://spark.apache.org/docs/1.4.0/api/java/org/apache/spark/sql/functions.html#lit(java.lang.Object)] ...

2 die antwort

Bestimmen der optimalen Anzahl von Spark-Partitionen basierend auf Worker, Cores und DataFrame-Größe

In Spark-Land gibt es mehrere ähnliche, aber unterschiedliche Konzepte, wie die Arbeit auf verschiedene Knoten verteilt und gleichzeitig ausgeführt wird. Im Einzelnen gibt es: Der Spark-Treiberknoten sparkDriverCount) Die Anzahl der ...

4 die antwort

Wie erzwinge ich, dass Spark DataFrame-Vorgänge inline auswertet?

Laut demSpark RDD docs [http://spark.apache.org/docs/latest/programming-guide.html#rdd-operations]: Alle Transformationen in Spark sind insofern faul, als sie ihre Ergebnisse nicht sofort berechnen ... Durch dieses Design kann Spark effizienter ...