Suchergebnisse für Anfrage "apache-spark"
Erstellen und Anzeigen eines Funken-Datenrahmens aus einer einfachen JSON-Datei
Der folgende einfache json DataFrame-Test funktioniert einwandfrei, wenn Spark im lokalen Modus ausgeführt wird. Hier ist das Scala-Snippet, aber ich habe es auch in Java und Python geschafft, dasselbe zu tun: sparkContext.addFile(jsonPath) val ...
Wie wird der DataFrame gedreht?
Ich fange an, Spark DataFrames zu verwenden, und ich muss in der Lage sein, die Daten zu schwenken, um mehrere Spalten aus einer Spalte mit mehreren Zeilen zu erstellen. In Scalding ist dafür eine integrierte Funktionalität vorhanden, und ich ...
Access-Dateien, die mit einem Unterstrich in apache spark @ beginn
Ich versuche, auf gz-Dateien auf s3 zuzugreifen, die mit @ beginne_ in Apache Spark. Leider hält spark diese Dateien für unsichtbar und gibt @ zurücInput path does not exist: s3n:.../_1013.gz. Wenn ich den Unterstrich entferne, ist die Datei in ...
spark Fehler beim Laden von Dateien von S3 Wildcard
Ich verwende die Pyspark-Shell und versuche, Daten aus S3 mit der Datei-Platzhalter-Funktion von spark zu lesen. Es wird jedoch die folgende Fehlermeldung angezeigt: Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ ...
Explode in PySpark
Ich möchte aus einem DataFrame, der Wortlisten enthält, einen DataFrame mit jedem Wort in einer eigenen Zeile erstellen. Wie kann ich eine Spalte in einem DataFrame auflösen? Hier ist ein Beispiel für einige meiner Versuche, bei denen Sie die ...
Pyspark-String in Datumsformat konvertieren
Ich habe einen Datums-Pyspark-Datenrahmen mit einer Zeichenfolgenspalte im FormatMM-dd-yyyy und ich versuche, dies in eine Datumsspalte umzuwandeln. Ich habe es versucht df.select(to_date(df.STRING_COLUMN).alias('new_date')).show() und ich ...
Spark Arrays zusammenführen / kombinieren in groupBy / aggregate
Der folgende Spark-Code demonstriert richtig, was ich tun möchte, und generiert die richtige Ausgabe mit einem winzigen Demo-Datensatz. Wenn ich denselben allgemeinen Codetyp auf einer großen Menge von Produktionsdaten ausführe, treten ...
Wie transponiere ich Datenrahmen in Spark 1.5 (kein Pivot-Operator verfügbar)?
Ich möchte folgende Tabelle mit Spark-Scala ohne Pivot-Funktion transponieren Ich verwende Spark 1.5.1 und die Pivot-Funktion wird in 1.5.1 nicht unterstützt. Bitte schlagen Sie eine geeignete Methode zur Umsetzung der folgenden Tabelle ...
Verschachtelte Elemente in Scala Spark Dataframe umbenennen
Ich habe einen Spark Scala-Datenrahmen mit einer verschachtelten Struktur: |-- _History: struct (nullable = true) | |-- Article: array (nullable = true) | | |-- element: struct (containsNull = true) | | | |-- Id: string (nullable = true) | | | ...
Setzen von textinputformat.record.delimiter in spark
In Spark ist es möglich, einige Hadoop-Konfigurationseinstellungen festzulegen, wie z.