Suchergebnisse für Anfrage "apache-spark"

2 die antwort

Warum sind Spark Parkett-Dateien für ein Aggregat größer als das Original?

Ich versuche, eine Gesamtdatei für Endbenutzer zu erstellen, um zu vermeiden, dass diese mehrere Quellen mit viel größeren Dateien verarbeiten. Dazu gehe ich folgendermaßen vor: A) Durchsuche alle Quellordner, entferne 12 am ...

2 die antwort

unionAll führt zu StackOverflow

Ich habe mit meiner eigenen Frage einige Fortschritte gemacht Wie lade ich einen Datenframe aus einem Python-Anforderungs-Stream, der eine ...

2 die antwort

Vorwärts fehlende Werte in Spark / Python füllen

Ich versuche, fehlende Werte in meinem Spark-Datenframe mit dem vorherigen Nicht-Null-Wert (falls vorhanden) zu füllen. Ich habe so etwas in Python / Pandas gemacht, aber meine Daten sind zu groß für Pandas (auf einem kleinen Cluster) und ich ...

TOP-Veröffentlichungen

8 die antwort

Spark Dataframe validiert Spaltennamen für Parkettschreibvorgänge (Scala)

Ich verarbeite Ereignisse mit Dataframes, die aus einem Stream von JSON-Ereignissen konvertiert wurden, der schließlich als Parkettformat ausgegeben wird. Einige der JSON-Ereignisse enthalten jedoch Leerzeichen in den Schlüsseln, die ich ...

4 die antwort

Explode in PySpark

Ich möchte aus einem DataFrame, der Wortlisten enthält, einen DataFrame mit jedem Wort in einer eigenen Zeile erstellen. Wie kann ich eine Spalte in einem DataFrame auflösen? Hier ist ein Beispiel für einige meiner Versuche, bei denen Sie die ...

2 die antwort

Nicht ganzzahlige IDs in Spark MLlib ALS

Ich würde gerne @ verwend val ratings = data.map(_.split(',') match { case Array(user,item,rate) => Rating(user.toInt,item.toInt,rate.toFloat) }) val model = ALS.train(ratings,rank,numIterations,alpha) Die Benutzerdaten, die ich erhalte, werden ...

0 die antwort

Spark Scala - java.util.NoSuchElementException & Datenbereinigung

ch hatte ein ähnliches Problem vor [https://stackoverflow.com/questions/38002753/scala-spark-dataframe-show-throws-java-util-nosuchelementexception-after-a] , aber ich suche nach einer verallgemeinerbaren Antwort. Ich benutze spark-corenlp ...

2 die antwort

Config-Datei zum Definieren der JSON-Schemastruktur in PySpark

Ich habe eine PySpark-Anwendung erstellt, die die JSON-Datei in einem Datenrahmen über ein definiertes Schema liest. Codebeispiel unten schema = StructType([ StructField("domain", StringType(), True), StructField("timestamp", LongType(), True), ...

6 die antwort

Spark-Datenrahmen konvertieren verschachteltes JSON in separate Spalten

Ich habe einen Stream von JSONs mit folgender Struktur, die in dataframe konvertiert werden. { "a": 3936, "b": 123, "c": "34", "attributes": { "d": "146", "e": "12", "f": "23" } }Die Show-Funktionen des Datenrahmens führen zu folgender ...

2 die antwort

Spark unter Windows - Was genau ist winutils und warum brauchen wir es?

Ich bin neugierig! Meines Wissens benötigt HDFS Datanode-Prozesse, und deshalb funktioniert es nur auf Servern. Spark kann zwar lokal ausgeführt werden, benötigt jedoch winutils.exe, eine Komponente von Hadoop. Aber was genau macht es? Wie kommt ...