Suchergebnisse für Anfrage "spark-dataframe"
Eine große und eine riesige Funke DataFrame beitreten
Ich habe zwei Datenrahmen, df1 hat 6 Millionen Zeilen, df2 hat 1 Milliarde. Ich habe den Standard @ ausprobiedf1.join(df2,df1("id")<=>df2("id2")), aber nicht genügend Speicher. df1 ist zu groß, um in einen Broadcast-Join eingefügt zu ...
Pyspark: Vorwärtsfüllung mit letzter Beobachtung für einen DataFrame
Mit Spark 1.5.1, Ich habe versucht, füllen @ weiterzuleitnull values mit der letzten bekannten Beobachtung füreine Spalte meines DataFrame. Es ist möglich, mit einem Nullwert zu beginnen, und in diesem Fall würde ich diesen Nullwert mit der ...
spark: So erstellen Sie ein dropDuplicate für einen Datenframe unter Beibehaltung der Zeile mit dem höchsten Zeitstempel [duplizieren]
Diese Frage hat hier bereits eine Antwort: Maximale Zeile pro Gruppe in Spark DataFrame finden [/questions/35218882/find-maximum-row-per-group-in-spark-dataframe] 2 Antworten Ich habe einen Anwendungsfall, in dem ich doppelte Zeilen eines ...
Wie ändere ich einen Spark-Datenrahmen mit einer komplexen verschachtelten Struktur?
Ich habe eine komplexe DataFrame-Struktur und möchte eine Spalte einfach auf null setzen. Ich habe implizite Klassen erstellt, die Funktionen verknüpfen und auf einfache Weise 2D-DataFrame-Strukturen ansprechen, aber sobald der DataFrame mit ...
Wie kann man zwei DataFrames in Scala und Apache Spark verbinden?
Es gibt zwei DataFrames (Scala, Apache Spark 1.6.1) 1) Übereinstimmungen MatchID | Player1 | Player2 -------------------------------- 1 | John Wayne | John Doe 2 | Ive Fish | San Simon 2) Persönliche Daten Player | BirthYear ...
So übergeben Sie mehrere Anweisungen an Spark SQL HiveContext
Zum Beispiel habe ich einige Hive HQL-Anweisungen, die ich an Spark SQL übergeben möchte: set parquet.compression=SNAPPY; create table MY_TABLE stored as parquet as select * from ANOTHER_TABLE; select * from MY_TABLE limit 5;Folgen ...
Wie kann Spark ein mit JSON-Escapezeichen versehenes String-Feld als JSON-Objekt analysieren lassen, um auf die richtige Struktur in DataFrames zu schließen?
Ich habe als Eingabe eine Reihe von Dateien, die als einzelnes JSON-Objekt pro Zeile formatiert sind. Das Problem ist jedoch, dass ein Feld in diesen JSON-Objekten eine mit JSON-Escapezeichen versehene Zeichenfolge ist. Beispie { "id":1, ...
Liste der Datentypen aus dem Schema in Apache Spark abrufen
Ich habe den folgenden Code in Spark-Python, um die Liste der Namen aus dem Schema eines DataFrame abzurufen. Das funktioniert, aber wie kann ich die Liste der Datentypen abrufen? columnNames = df.schema.names Zum Beispiel so etwas ...
Query Ein verschachteltes Array in Parkettaufzeichnungen
ch versuche verschiedene Möglichkeiten, einen Datensatz in einem Array von Datensätzen abzufragen und die vollständige Zeile als Ausgabe anzuzeige Ich weiß nicht, welches verschachtelte Objekt den String "pg" hat. Aber ich möchte nach einem ...
Wie Spalten explodieren?
Nach val df = Seq((1, Vector(2, 3, 4)), (1, Vector(2, 3, 4))).toDF("Col1", "Col2")Ich habe diesen DataFrame in Apache Spark: +------+---------+ | Col1 | Col2 | +------+---------+ | 1 |[2, 3, 4]| | 1 |[2, 3, 4]| +------+---------+Wie konvertiere ...