Suchergebnisse für Anfrage "apache-spark"
Splitting Reihe in mehrere Reihen in Funkenschale
Ich habe Daten in Spark-Datenrahmen in Spark-Shell importiert. Daten werden wie folgt eingegeben: Col1 | Col2 | Col3 | Col4 A1 | 11 | B2 | a|b;1;0xFFFFFF A1 | 12 | B1 | 2 A2 | 12 | B2 | 0xFFF45BHier in Spalte 4 sind die Werte von ...
PySpark Wie man CSV in Dataframe einliest und manipuliert
Ich bin ein Neuling in Pyspark und versuche, damit einen großen Datensatz zu verarbeiten, der als CSV-Datei gespeichert wird. Ich möchte CSV-Dateien in Spark-Datenrahmen einlesen, einige Spalten löschen und neue Spalten hinzufügen. Wie soll ich ...
Spark Ausnahme beim Konvertieren einer MySQL-Tabelle in Parkett
Ich versuche, eine MySQL-entfernte Tabelle mit spark 1.6.2 in eine Parkettdatei zu konvertieren. Der Vorgang dauert 10 Minuten und füllt den Speicher. Anschließend werden die folgenden Meldungen ausgegeben: WARN NettyRpcEndpointRef: Error ...
Ist es möglich, globale Variablen in einem Zeppelin Notebook zu setzen?
Ich versuche, mit einem Zeppelin-Notizbuch ein Dashboard mit mehreren Absätzen zu erstellen. Ich möchte, dass Personen, die das Dashboard verwenden, bestimmte Parameter nur einmal eingeben müssen. Z.B. Wenn ich ein Dashboard mit Informationen zu ...
PySpark-Fehler: AttributeError: Objekt 'NoneType' hat kein Attribut '_jvm'
Ich habe einen Zeitstempeldatensatz im Format von Und ich habe ein udf in pyspark geschrieben, um diesen Datensatz zu verarbeiten und als Map der Schlüsselwerte zurückzugeben. Aber bekomme unten Fehlermeldung. Dataset: ...
Wie schneide und summiere ich Elemente einer Array-Spalte?
Ich würde gernesum (oder führen Sie auch andere Aggregatfunktionen aus) für die Array-Spalte mit SparkSQL. Ich habe eine Tabelle als +-------+-------+---------------------------------+ |dept_id|dept_nm| emp_details| ...
Beste Übung zum Starten von Spark-Anwendungen über eine Webanwendung?
Ich möchte meine Spark-Anwendungen mit einer Webanwendung für die Benutzer verfügbar machen. Grundsätzlich kann der Benutzer entscheiden, welche Aktion er ausführen möchte, und einige Variablen eingeben, die an die Spark-Anwendung übergeben ...
PCA in Spark MLlib und Spark ML
Spark verfügt jetzt über zwei Bibliotheken für maschinelles Lernen - Spark MLlib und Spark ML. Sie überlappen sich in der Implementierung etwas, aber wie ich verstehe (als Person, die das gesamte Spark-Ökosystem noch nicht kennt), ist Spark ML ...
Spark: saveAsTextFile ohne Komprimierung
Standardmäßig verwenden neuere Versionen von Spark beim Speichern von Textdateien die Komprimierung. Beispielsweise val txt = sc.parallelize(List("Hello", "world", "!")) txt.saveAsTextFile("/path/to/output") erzeugt Dateien in.deflate Format. ...
Warum liest Apache Spark unnötige Parkettspalten in verschachtelten Strukturen?
as Team von @My erstellt einen ETL-Prozess, um mit Spark unbegrenzte Textdateien in einen Parkett-basierten "Datensee" zu laden. Eine der Versprechungen des Parquet-Spaltenspeichers ist, dass eine Abfrage nur die erforderlichen "Spaltenstreifen" ...