Suchergebnisse für Anfrage "apache-spark"
Warum sind Spark Parkett-Dateien für ein Aggregat größer als das Original?
Ich versuche, eine Gesamtdatei für Endbenutzer zu erstellen, um zu vermeiden, dass diese mehrere Quellen mit viel größeren Dateien verarbeiten. Dazu gehe ich folgendermaßen vor: A) Durchsuche alle Quellordner, entferne 12 am ...
unionAll führt zu StackOverflow
Ich habe mit meiner eigenen Frage einige Fortschritte gemacht Wie lade ich einen Datenframe aus einem Python-Anforderungs-Stream, der eine ...
Vorwärts fehlende Werte in Spark / Python füllen
Ich versuche, fehlende Werte in meinem Spark-Datenframe mit dem vorherigen Nicht-Null-Wert (falls vorhanden) zu füllen. Ich habe so etwas in Python / Pandas gemacht, aber meine Daten sind zu groß für Pandas (auf einem kleinen Cluster) und ich ...
Spark Dataframe validiert Spaltennamen für Parkettschreibvorgänge (Scala)
Ich verarbeite Ereignisse mit Dataframes, die aus einem Stream von JSON-Ereignissen konvertiert wurden, der schließlich als Parkettformat ausgegeben wird. Einige der JSON-Ereignisse enthalten jedoch Leerzeichen in den Schlüsseln, die ich ...
Explode in PySpark
Ich möchte aus einem DataFrame, der Wortlisten enthält, einen DataFrame mit jedem Wort in einer eigenen Zeile erstellen. Wie kann ich eine Spalte in einem DataFrame auflösen? Hier ist ein Beispiel für einige meiner Versuche, bei denen Sie die ...
Nicht ganzzahlige IDs in Spark MLlib ALS
Ich würde gerne @ verwend val ratings = data.map(_.split(',') match { case Array(user,item,rate) => Rating(user.toInt,item.toInt,rate.toFloat) }) val model = ALS.train(ratings,rank,numIterations,alpha) Die Benutzerdaten, die ich erhalte, werden ...
Spark Scala - java.util.NoSuchElementException & Datenbereinigung
ch hatte ein ähnliches Problem vor [https://stackoverflow.com/questions/38002753/scala-spark-dataframe-show-throws-java-util-nosuchelementexception-after-a] , aber ich suche nach einer verallgemeinerbaren Antwort. Ich benutze spark-corenlp ...
Config-Datei zum Definieren der JSON-Schemastruktur in PySpark
Ich habe eine PySpark-Anwendung erstellt, die die JSON-Datei in einem Datenrahmen über ein definiertes Schema liest. Codebeispiel unten schema = StructType([ StructField("domain", StringType(), True), StructField("timestamp", LongType(), True), ...
Spark-Datenrahmen konvertieren verschachteltes JSON in separate Spalten
Ich habe einen Stream von JSONs mit folgender Struktur, die in dataframe konvertiert werden. { "a": 3936, "b": 123, "c": "34", "attributes": { "d": "146", "e": "12", "f": "23" } }Die Show-Funktionen des Datenrahmens führen zu folgender ...
Spark unter Windows - Was genau ist winutils und warum brauchen wir es?
Ich bin neugierig! Meines Wissens benötigt HDFS Datanode-Prozesse, und deshalb funktioniert es nur auf Servern. Spark kann zwar lokal ausgeführt werden, benötigt jedoch winutils.exe, eine Komponente von Hadoop. Aber was genau macht es? Wie kommt ...