Suchergebnisse für Anfrage "apache-spark-sql"
PySpark Wie man CSV in Dataframe einliest und manipuliert
Ich bin ein Neuling in Pyspark und versuche, damit einen großen Datensatz zu verarbeiten, der als CSV-Datei gespeichert wird. Ich möchte CSV-Dateien in Spark-Datenrahmen einlesen, einige Spalten löschen und neue Spalten hinzufügen. Wie soll ich ...
PySpark-Fehler: AttributeError: Objekt 'NoneType' hat kein Attribut '_jvm'
Ich habe einen Zeitstempeldatensatz im Format von Und ich habe ein udf in pyspark geschrieben, um diesen Datensatz zu verarbeiten und als Map der Schlüsselwerte zurückzugeben. Aber bekomme unten Fehlermeldung. Dataset: ...
Spark Ausnahme beim Konvertieren einer MySQL-Tabelle in Parkett
Ich versuche, eine MySQL-entfernte Tabelle mit spark 1.6.2 in eine Parkettdatei zu konvertieren. Der Vorgang dauert 10 Minuten und füllt den Speicher. Anschließend werden die folgenden Meldungen ausgegeben: WARN NettyRpcEndpointRef: Error ...
Spark SQL - IN-Klausel
Ich möchte die where-Bedingung für eine Spalte mit mehreren Werten in DataFrame hinzufügen. Ist zum Beispiel für einen einzelnen Wert. df.where($"type".==="type1" && $"status"==="completed").Wie kann ich mehrere Werte für dieselbe Spalte wie ...
Wie schneide und summiere ich Elemente einer Array-Spalte?
Ich würde gernesum (oder führen Sie auch andere Aggregatfunktionen aus) für die Array-Spalte mit SparkSQL. Ich habe eine Tabelle als +-------+-------+---------------------------------+ |dept_id|dept_nm| emp_details| ...
Datenrahmen nach Wert filtern, der NICHT in der Spalte eines anderen Datenrahmens vorhanden ist [duplizieren]
Diese Frage hat hier bereits eine Antwort: Filter Spark DataFrame basierend auf einem anderen DataFrame, der Blacklist-Kriterien angibt [/questions/39887526/filter-spark-dataframe-based-on-another-dataframe-that-specifies-blacklist-crite] 2 ...
Spark Window Functions benötigt HiveContext?
Ich versuche ein Beispiel für eine Fensterfunktion auf Funken aus diesem ...
Spark UDF hat mehr als einmal pro Datensatz aufgerufen, wenn DF zu viele Spalten hat
Ich verwende Spark 1.6.1 und stoße auf ein merkwürdiges Verhalten: Ich führe eine UDF mit einigen umfangreichen Berechnungen (eine Physiksimulation) für einen Datenrahmen aus, der einige Eingabedaten enthält, und erstelle ...
Mit Spark-Datenrahmen auf dem Schlüssel verbinden
Ich habe zwei Datenrahmen erstellt. Wie können wir mehrere Spark-Datenrahmen verbinden? Zum Beispiel PersonDf, ProfileDf mit einer gemeinsamen Spalte alspersonId as (Schlüssel). Wie können wir nun einen Dataframe haben, der @ kombinierPersonDf ...
Was sind mögliche Gründe für den Empfang von TimeoutException: Zeitüberschreitung bei Futures nach [n Sekunden] bei der Arbeit mit Spark [duplizieren]
Diese Frage hat hier bereits eine Antwort: Warum schlägt der Beitritt mit "java.util.concurrent.TimeoutException: Zeitüberschreitung bei Futures nach [300 Sekunden]" ...