Suchergebnisse für Anfrage "spark-dataframe"

4 die antwort

Eine große und eine riesige Funke DataFrame beitreten

Ich habe zwei Datenrahmen, df1 hat 6 Millionen Zeilen, df2 hat 1 Milliarde. Ich habe den Standard @ ausprobiedf1.join(df2,df1("id")<=>df2("id2")), aber nicht genügend Speicher. df1 ist zu groß, um in einen Broadcast-Join eingefügt zu ...

6 die antwort

Pyspark: Vorwärtsfüllung mit letzter Beobachtung für einen DataFrame

Mit Spark 1.5.1, Ich habe versucht, füllen @ weiterzuleitnull values mit der letzten bekannten Beobachtung füreine Spalte meines DataFrame. Es ist möglich, mit einem Nullwert zu beginnen, und in diesem Fall würde ich diesen Nullwert mit der ...

4 die antwort

spark: So erstellen Sie ein dropDuplicate für einen Datenframe unter Beibehaltung der Zeile mit dem höchsten Zeitstempel [duplizieren]

Diese Frage hat hier bereits eine Antwort: Maximale Zeile pro Gruppe in Spark DataFrame finden [/questions/35218882/find-maximum-row-per-group-in-spark-dataframe] 2 Antworten Ich habe einen Anwendungsfall, in dem ich doppelte Zeilen eines ...

TOP-Veröffentlichungen

2 die antwort

Wie ändere ich einen Spark-Datenrahmen mit einer komplexen verschachtelten Struktur?

Ich habe eine komplexe DataFrame-Struktur und möchte eine Spalte einfach auf null setzen. Ich habe implizite Klassen erstellt, die Funktionen verknüpfen und auf einfache Weise 2D-DataFrame-Strukturen ansprechen, aber sobald der DataFrame mit ...

6 die antwort

Wie kann man zwei DataFrames in Scala und Apache Spark verbinden?

Es gibt zwei DataFrames (Scala, Apache Spark 1.6.1) 1) Übereinstimmungen MatchID | Player1 | Player2 -------------------------------- 1 | John Wayne | John Doe 2 | Ive Fish | San Simon 2) Persönliche Daten Player | BirthYear ...

4 die antwort

So übergeben Sie mehrere Anweisungen an Spark SQL HiveContext

Zum Beispiel habe ich einige Hive HQL-Anweisungen, die ich an Spark SQL übergeben möchte: set parquet.compression=SNAPPY; create table MY_TABLE stored as parquet as select * from ANOTHER_TABLE; select * from MY_TABLE limit 5;Folgen ...

2 die antwort

Wie kann Spark ein mit JSON-Escapezeichen versehenes String-Feld als JSON-Objekt analysieren lassen, um auf die richtige Struktur in DataFrames zu schließen?

Ich habe als Eingabe eine Reihe von Dateien, die als einzelnes JSON-Objekt pro Zeile formatiert sind. Das Problem ist jedoch, dass ein Feld in diesen JSON-Objekten eine mit JSON-Escapezeichen versehene Zeichenfolge ist. Beispie { "id":1, ...

6 die antwort

Liste der Datentypen aus dem Schema in Apache Spark abrufen

Ich habe den folgenden Code in Spark-Python, um die Liste der Namen aus dem Schema eines DataFrame abzurufen. Das funktioniert, aber wie kann ich die Liste der Datentypen abrufen? columnNames = df.schema.names Zum Beispiel so etwas ...

4 die antwort

Query Ein verschachteltes Array in Parkettaufzeichnungen

ch versuche verschiedene Möglichkeiten, einen Datensatz in einem Array von Datensätzen abzufragen und die vollständige Zeile als Ausgabe anzuzeige Ich weiß nicht, welches verschachtelte Objekt den String "pg" hat. Aber ich möchte nach einem ...

8 die antwort

Wie Spalten explodieren?

Nach val df = Seq((1, Vector(2, 3, 4)), (1, Vector(2, 3, 4))).toDF("Col1", "Col2")Ich habe diesen DataFrame in Apache Spark: +------+---------+ | Col1 | Col2 | +------+---------+ | 1 |[2, 3, 4]| | 1 |[2, 3, 4]| +------+---------+Wie konvertiere ...