Suchergebnisse für Anfrage "apache-spark-sql"

2 die antwort

PySpark Wie man CSV in Dataframe einliest und manipuliert

Ich bin ein Neuling in Pyspark und versuche, damit einen großen Datensatz zu verarbeiten, der als CSV-Datei gespeichert wird. Ich möchte CSV-Dateien in Spark-Datenrahmen einlesen, einige Spalten löschen und neue Spalten hinzufügen. Wie soll ich ...

6 die antwort

PySpark-Fehler: AttributeError: Objekt 'NoneType' hat kein Attribut '_jvm'

Ich habe einen Zeitstempeldatensatz im Format von Und ich habe ein udf in pyspark geschrieben, um diesen Datensatz zu verarbeiten und als Map der Schlüsselwerte zurückzugeben. Aber bekomme unten Fehlermeldung. Dataset: ...

2 die antwort

Spark Ausnahme beim Konvertieren einer MySQL-Tabelle in Parkett

Ich versuche, eine MySQL-entfernte Tabelle mit spark 1.6.2 in eine Parkettdatei zu konvertieren. Der Vorgang dauert 10 Minuten und füllt den Speicher. Anschließend werden die folgenden Meldungen ausgegeben: WARN NettyRpcEndpointRef: Error ...

TOP-Veröffentlichungen

2 die antwort

Spark SQL - IN-Klausel

Ich möchte die where-Bedingung für eine Spalte mit mehreren Werten in DataFrame hinzufügen. Ist zum Beispiel für einen einzelnen Wert. df.where($"type".==="type1" && $"status"==="completed").Wie kann ich mehrere Werte für dieselbe Spalte wie ...

10 die antwort

Wie schneide und summiere ich Elemente einer Array-Spalte?

Ich würde gernesum (oder führen Sie auch andere Aggregatfunktionen aus) für die Array-Spalte mit SparkSQL. Ich habe eine Tabelle als +-------+-------+---------------------------------+ |dept_id|dept_nm| emp_details| ...

4 die antwort

Datenrahmen nach Wert filtern, der NICHT in der Spalte eines anderen Datenrahmens vorhanden ist [duplizieren]

Diese Frage hat hier bereits eine Antwort: Filter Spark DataFrame basierend auf einem anderen DataFrame, der Blacklist-Kriterien angibt [/questions/39887526/filter-spark-dataframe-based-on-another-dataframe-that-specifies-blacklist-crite] 2 ...

2 die antwort

Spark Window Functions benötigt HiveContext?

Ich versuche ein Beispiel für eine Fensterfunktion auf Funken aus diesem ...

4 die antwort

Spark UDF hat mehr als einmal pro Datensatz aufgerufen, wenn DF zu viele Spalten hat

Ich verwende Spark 1.6.1 und stoße auf ein merkwürdiges Verhalten: Ich führe eine UDF mit einigen umfangreichen Berechnungen (eine Physiksimulation) für einen Datenrahmen aus, der einige Eingabedaten enthält, und erstelle ...

6 die antwort

Mit Spark-Datenrahmen auf dem Schlüssel verbinden

Ich habe zwei Datenrahmen erstellt. Wie können wir mehrere Spark-Datenrahmen verbinden? Zum Beispiel PersonDf, ProfileDf mit einer gemeinsamen Spalte alspersonId as (Schlüssel). Wie können wir nun einen Dataframe haben, der @ kombinierPersonDf ...

8 die antwort

Was sind mögliche Gründe für den Empfang von TimeoutException: Zeitüberschreitung bei Futures nach [n Sekunden] bei der Arbeit mit Spark [duplizieren]

Diese Frage hat hier bereits eine Antwort: Warum schlägt der Beitritt mit "java.util.concurrent.TimeoutException: Zeitüberschreitung bei Futures nach [300 Sekunden]" ...