Suchergebnisse für Anfrage "apache-spark"

4 die antwort

Splitting Reihe in mehrere Reihen in Funkenschale

Ich habe Daten in Spark-Datenrahmen in Spark-Shell importiert. Daten werden wie folgt eingegeben: Col1 | Col2 | Col3 | Col4 A1 | 11 | B2 | a|b;1;0xFFFFFF A1 | 12 | B1 | 2 A2 | 12 | B2 | 0xFFF45BHier in Spalte 4 sind die Werte von ...

2 die antwort

PySpark Wie man CSV in Dataframe einliest und manipuliert

Ich bin ein Neuling in Pyspark und versuche, damit einen großen Datensatz zu verarbeiten, der als CSV-Datei gespeichert wird. Ich möchte CSV-Dateien in Spark-Datenrahmen einlesen, einige Spalten löschen und neue Spalten hinzufügen. Wie soll ich ...

2 die antwort

Spark Ausnahme beim Konvertieren einer MySQL-Tabelle in Parkett

Ich versuche, eine MySQL-entfernte Tabelle mit spark 1.6.2 in eine Parkettdatei zu konvertieren. Der Vorgang dauert 10 Minuten und füllt den Speicher. Anschließend werden die folgenden Meldungen ausgegeben: WARN NettyRpcEndpointRef: Error ...

TOP-Veröffentlichungen

4 die antwort

Ist es möglich, globale Variablen in einem Zeppelin Notebook zu setzen?

Ich versuche, mit einem Zeppelin-Notizbuch ein Dashboard mit mehreren Absätzen zu erstellen. Ich möchte, dass Personen, die das Dashboard verwenden, bestimmte Parameter nur einmal eingeben müssen. Z.B. Wenn ich ein Dashboard mit Informationen zu ...

6 die antwort

PySpark-Fehler: AttributeError: Objekt 'NoneType' hat kein Attribut '_jvm'

Ich habe einen Zeitstempeldatensatz im Format von Und ich habe ein udf in pyspark geschrieben, um diesen Datensatz zu verarbeiten und als Map der Schlüsselwerte zurückzugeben. Aber bekomme unten Fehlermeldung. Dataset: ...

10 die antwort

Wie schneide und summiere ich Elemente einer Array-Spalte?

Ich würde gernesum (oder führen Sie auch andere Aggregatfunktionen aus) für die Array-Spalte mit SparkSQL. Ich habe eine Tabelle als +-------+-------+---------------------------------+ |dept_id|dept_nm| emp_details| ...

4 die antwort

Beste Übung zum Starten von Spark-Anwendungen über eine Webanwendung?

Ich möchte meine Spark-Anwendungen mit einer Webanwendung für die Benutzer verfügbar machen. Grundsätzlich kann der Benutzer entscheiden, welche Aktion er ausführen möchte, und einige Variablen eingeben, die an die Spark-Anwendung übergeben ...

2 die antwort

PCA in Spark MLlib und Spark ML

Spark verfügt jetzt über zwei Bibliotheken für maschinelles Lernen - Spark MLlib und Spark ML. Sie überlappen sich in der Implementierung etwas, aber wie ich verstehe (als Person, die das gesamte Spark-Ökosystem noch nicht kennt), ist Spark ML ...

2 die antwort

Spark: saveAsTextFile ohne Komprimierung

Standardmäßig verwenden neuere Versionen von Spark beim Speichern von Textdateien die Komprimierung. Beispielsweise val txt = sc.parallelize(List("Hello", "world", "!")) txt.saveAsTextFile("/path/to/output") erzeugt Dateien in.deflate Format. ...

2 die antwort

Warum liest Apache Spark unnötige Parkettspalten in verschachtelten Strukturen?

as Team von @My erstellt einen ETL-Prozess, um mit Spark unbegrenzte Textdateien in einen Parkett-basierten "Datensee" zu laden. Eine der Versprechungen des Parquet-Spaltenspeichers ist, dass eine Abfrage nur die erforderlichen "Spaltenstreifen" ...