Suchergebnisse für Anfrage "apache-spark"

2 die antwort

Erstellen und Anzeigen eines Funken-Datenrahmens aus einer einfachen JSON-Datei

Der folgende einfache json DataFrame-Test funktioniert einwandfrei, wenn Spark im lokalen Modus ausgeführt wird. Hier ist das Scala-Snippet, aber ich habe es auch in Java und Python geschafft, dasselbe zu tun: sparkContext.addFile(jsonPath) val ...

12 die antwort

Wie wird der DataFrame gedreht?

Ich fange an, Spark DataFrames zu verwenden, und ich muss in der Lage sein, die Daten zu schwenken, um mehrere Spalten aus einer Spalte mit mehreren Zeilen zu erstellen. In Scalding ist dafür eine integrierte Funktionalität vorhanden, und ich ...

2 die antwort

Access-Dateien, die mit einem Unterstrich in apache spark @ beginn

Ich versuche, auf gz-Dateien auf s3 zuzugreifen, die mit @ beginne_ in Apache Spark. Leider hält spark diese Dateien für unsichtbar und gibt @ zurücInput path does not exist: s3n:.../_1013.gz. Wenn ich den Unterstrich entferne, ist die Datei in ...

TOP-Veröffentlichungen

6 die antwort

spark Fehler beim Laden von Dateien von S3 Wildcard

Ich verwende die Pyspark-Shell und versuche, Daten aus S3 mit der Datei-Platzhalter-Funktion von spark zu lesen. Es wird jedoch die folgende Fehlermeldung angezeigt: Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ ...

4 die antwort

Explode in PySpark

Ich möchte aus einem DataFrame, der Wortlisten enthält, einen DataFrame mit jedem Wort in einer eigenen Zeile erstellen. Wie kann ich eine Spalte in einem DataFrame auflösen? Hier ist ein Beispiel für einige meiner Versuche, bei denen Sie die ...

8 die antwort

Pyspark-String in Datumsformat konvertieren

Ich habe einen Datums-Pyspark-Datenrahmen mit einer Zeichenfolgenspalte im FormatMM-dd-yyyy und ich versuche, dies in eine Datumsspalte umzuwandeln. Ich habe es versucht df.select(to_date(df.STRING_COLUMN).alias('new_date')).show() und ich ...

2 die antwort

Spark Arrays zusammenführen / kombinieren in groupBy / aggregate

Der folgende Spark-Code demonstriert richtig, was ich tun möchte, und generiert die richtige Ausgabe mit einem winzigen Demo-Datensatz. Wenn ich denselben allgemeinen Codetyp auf einer großen Menge von Produktionsdaten ausführe, treten ...

6 die antwort

Wie transponiere ich Datenrahmen in Spark 1.5 (kein Pivot-Operator verfügbar)?

Ich möchte folgende Tabelle mit Spark-Scala ohne Pivot-Funktion transponieren Ich verwende Spark 1.5.1 und die Pivot-Funktion wird in 1.5.1 nicht unterstützt. Bitte schlagen Sie eine geeignete Methode zur Umsetzung der folgenden Tabelle ...

2 die antwort

Verschachtelte Elemente in Scala Spark Dataframe umbenennen

Ich habe einen Spark Scala-Datenrahmen mit einer verschachtelten Struktur: |-- _History: struct (nullable = true) | |-- Article: array (nullable = true) | | |-- element: struct (containsNull = true) | | | |-- Id: string (nullable = true) | | | ...

1 die antwort

Setzen von textinputformat.record.delimiter in spark

In Spark ist es möglich, einige Hadoop-Konfigurationseinstellungen festzulegen, wie z.