Suchergebnisse für Anfrage "apache-spark"

2 die antwort

Apache Spark Window-Funktion mit verschachtelter Spalte

Ich bin mir nicht sicher, ob dies ein Fehler ist (oder nur eine falsche Syntax). Ich habe mich umgesehen und habe dies an keiner anderen Stelle erwähnt. Deshalb frage ich hier, bevor ich einen Fehlerbericht einreiche. Ich versuche, eine ...

4 die antwort

Multiple Aggregate-Operationen für dieselbe Spalte eines Spark-Datenrahmens

Ich habe drei Arrays vom Typ string, die folgende Informationen enthalten: groupBy Array: Enthält die Namen der Spalten, nach denen ich meine Daten gruppieren möchte.aggregate Array: enthält Namen von Spalten, die ich aggregieren möchte.rray ...

6 die antwort

Wie erstelle ich einen Datensatz aus der benutzerdefinierten Klasse Person?

Ich habe versucht, ein @ zu erstelleDataset in Java, also schreibe ich den folgenden Code: public Dataset createDataset(){ List<Person> list = new ArrayList<>(); list.add(new Person("name", 10, 10.0)); Dataset<Person> dateset ...

TOP-Veröffentlichungen

4 die antwort

Neue Daten an partitionierte Parkettdateien anhängen

Ich schreibe einen ETL-Prozess, in dem ich stündliche Protokolldateien lesen, die Daten partitionieren und speichern muss. Ich benutze Spark (in Databricks). Die Protokolldateien sind CSV-Dateien, daher lese ich sie und wende ein Schema an. ...

2 die antwort

Sparkr schreibe DF als Datei csv / txt

Hi, ich arbeite an sparkR im Garnmodus. Ich muss ein Sparkr df in eine CSV / TXT-Datei schreiben. Ich habe gesehen, dass eswrite.df aber es schreibt Parkettdateien. Ich habe versucht, diese Dinge zu tun RdataFrame<-collect(SparkRDF) ...

4 die antwort

Wie man MongoDB über Spark nach Geodaten abfragt

Gibt es eine Möglichkeit, MongoDB mit Spark für Geodatenabfragen zu verwenden? Ich kann nicht sehen, wie das mit Stratio geht.

2 die antwort

Stack Overflow beim Verarbeiten mehrerer Spalten mit einer UDF

Ich habe einDataFrame mit vielen Spalten vonstr type, und ich möchte eine Funktion auf alle diese Spalten anwenden, ohne deren Namen umzubenennen oder weitere Spalten hinzuzufügen. Ich habe versucht, ein @ zu verwendefor-in Schleife wird ...

2 die antwort

pyspark und reduByKey: wie man eine einfache Summe macht

Ich versuche einen Code in Spark (Pyspark) für eine Aufgabe. Zum ersten Mal benutze ich diese Umgebung, also vermisse ich mit Sicherheit etwas… Ich habe einen einfachen Datensatz namens c_views. enn ich lauc_views.collect() Ich bekomm […] ...

6 die antwort

Spark-Jobs werden beendet, aber das Schließen der Anwendung dauert einige Zeit.

Erwartet, dass ein Spark-Job unter Verwendung von Scala ausgeführt wird. Alle Jobs werden pünktlich beendet. Einige INFO-Protokolle werden jedoch 20 bis 25 Minuten lang gedruckt, bevor der Job beendet wird. Veröffentlichung weniger ...

2 die antwort

RDD aufteilen und Aggregation für neue RDDs durchführen

Ich habe eine RDD von(String,String,Int). Ich möchte es basierend auf den ersten beiden Zeichenfolgen reduzierenUnd dann basierend auf dem ersten String möchte ich den (String, Int) gruppieren und sortierenNach dem Sortieren muss ich sie in ...