Suchergebnisse für Anfrage "spark-dataframe"
Wie man mehrere in einer Spalte einer RDD gespeicherte json-Tabellen so effizient wie möglich auf eine einzelne RDD-Tabelle reduziert
Funktioniert der gleichzeitige Zugriff auf das Anhängen von Zeilen mithilfe von union in einem Datenframe mithilfe des folgenden Codes ordnungsgemäß? Derzeit wird der Typ error @ angezeig from pyspark.sql.types import * schema = StructType([ ...
Umwandlung des Pandas-Datenrahmens in einen Spark-Datenrahmenfehler
Ich versuche Pandas DF in Spark One umzuwandeln. DF ...
Wann wird die Spark DataFrame / Dataset-API verwendet und wann wird RDD verwendet?
as @Spark SQL DataFrame / Dataset-Ausführungsmodul verfügt über mehrere äußerst effiziente Zeit- und Raumoptimierungen (z. B. InternalRow und expression codeGen). Vielen Dokumentationen zufolge scheint es für die meisten verteilten Algorithmen ...
Wie importiere ich mehrere CSV-Dateien auf einmal?
Consider Ich habe ein definiertes Schema zum Laden von 10 CSV-Dateien in einen Ordner. Gibt es eine Möglichkeit, Tabellen mit Spark SQL automatisch zu laden? Ich weiß, dass dies durchgeführt werden kann, indem für jede Datei ein ...
Wie berechnet man das Perzentil der Spalte in einem DataFrame im Spark?
Ich versuche, das Perzentil einer Spalte in einem DataFrame zu berechnen. Ich kann keine Percentile_approx-Funktion in Spark-Aggregationsfunktionen finden. Für z.B. in Hive haben wir percentile_approx und wir können es auf folgende Weise ...
Wie erstelle ich einen DataFrame aus der Liste der Iterables von Scala?
Ich habe den folgenden Scala-Wert: val values: List[Iterable[Any]] = Traces().evaluate(features).toListund ich möchte es in einen DataFrame konvertieren. Wenn ich Folgendes versuche: sqlContext.createDataFrame(values)Ich habe diesen Fehler ...
Spark Dataframe validiert Spaltennamen für Parkettschreibvorgänge (Scala)
Ich verarbeite Ereignisse mit Dataframes, die aus einem Stream von JSON-Ereignissen konvertiert wurden, der schließlich als Parkettformat ausgegeben wird. Einige der JSON-Ereignisse enthalten jedoch Leerzeichen in den Schlüsseln, die ich ...
Wie wird PySpark DataFrame gehasht, um einen Float zurückzugeben?
Sagen wir, ich habe Funken dataframe +--------+-----+ | letter|count| +--------+-----+ | a| 2| | b| 2| | c| 1| +--------+-----+Dann wollte ich meinen finden. So tat ic df = df.groupBy().mean('letter') welche einen Datenrahmen ...
Vorwärts fehlende Werte in Spark / Python füllen
Ich versuche, fehlende Werte in meinem Spark-Datenframe mit dem vorherigen Nicht-Null-Wert (falls vorhanden) zu füllen. Ich habe so etwas in Python / Pandas gemacht, aber meine Daten sind zu groß für Pandas (auf einem kleinen Cluster) und ich ...
Spark-Datenrahmen konvertieren verschachteltes JSON in separate Spalten
Ich habe einen Stream von JSONs mit folgender Struktur, die in dataframe konvertiert werden. { "a": 3936, "b": 123, "c": "34", "attributes": { "d": "146", "e": "12", "f": "23" } }Die Show-Funktionen des Datenrahmens führen zu folgender ...