Suchergebnisse für Anfrage "apache-spark"
Apache Spark Window-Funktion mit verschachtelter Spalte
Ich bin mir nicht sicher, ob dies ein Fehler ist (oder nur eine falsche Syntax). Ich habe mich umgesehen und habe dies an keiner anderen Stelle erwähnt. Deshalb frage ich hier, bevor ich einen Fehlerbericht einreiche. Ich versuche, eine ...
Multiple Aggregate-Operationen für dieselbe Spalte eines Spark-Datenrahmens
Ich habe drei Arrays vom Typ string, die folgende Informationen enthalten: groupBy Array: Enthält die Namen der Spalten, nach denen ich meine Daten gruppieren möchte.aggregate Array: enthält Namen von Spalten, die ich aggregieren möchte.rray ...
Wie erstelle ich einen Datensatz aus der benutzerdefinierten Klasse Person?
Ich habe versucht, ein @ zu erstelleDataset in Java, also schreibe ich den folgenden Code: public Dataset createDataset(){ List<Person> list = new ArrayList<>(); list.add(new Person("name", 10, 10.0)); Dataset<Person> dateset ...
Neue Daten an partitionierte Parkettdateien anhängen
Ich schreibe einen ETL-Prozess, in dem ich stündliche Protokolldateien lesen, die Daten partitionieren und speichern muss. Ich benutze Spark (in Databricks). Die Protokolldateien sind CSV-Dateien, daher lese ich sie und wende ein Schema an. ...
Sparkr schreibe DF als Datei csv / txt
Hi, ich arbeite an sparkR im Garnmodus. Ich muss ein Sparkr df in eine CSV / TXT-Datei schreiben. Ich habe gesehen, dass eswrite.df aber es schreibt Parkettdateien. Ich habe versucht, diese Dinge zu tun RdataFrame<-collect(SparkRDF) ...
Wie man MongoDB über Spark nach Geodaten abfragt
Gibt es eine Möglichkeit, MongoDB mit Spark für Geodatenabfragen zu verwenden? Ich kann nicht sehen, wie das mit Stratio geht.
Stack Overflow beim Verarbeiten mehrerer Spalten mit einer UDF
Ich habe einDataFrame mit vielen Spalten vonstr type, und ich möchte eine Funktion auf alle diese Spalten anwenden, ohne deren Namen umzubenennen oder weitere Spalten hinzuzufügen. Ich habe versucht, ein @ zu verwendefor-in Schleife wird ...
pyspark und reduByKey: wie man eine einfache Summe macht
Ich versuche einen Code in Spark (Pyspark) für eine Aufgabe. Zum ersten Mal benutze ich diese Umgebung, also vermisse ich mit Sicherheit etwas… Ich habe einen einfachen Datensatz namens c_views. enn ich lauc_views.collect() Ich bekomm […] ...
Spark-Jobs werden beendet, aber das Schließen der Anwendung dauert einige Zeit.
Erwartet, dass ein Spark-Job unter Verwendung von Scala ausgeführt wird. Alle Jobs werden pünktlich beendet. Einige INFO-Protokolle werden jedoch 20 bis 25 Minuten lang gedruckt, bevor der Job beendet wird. Veröffentlichung weniger ...
RDD aufteilen und Aggregation für neue RDDs durchführen
Ich habe eine RDD von(String,String,Int). Ich möchte es basierend auf den ersten beiden Zeichenfolgen reduzierenUnd dann basierend auf dem ersten String möchte ich den (String, Int) gruppieren und sortierenNach dem Sortieren muss ich sie in ...