Suchergebnisse für Anfrage "rdd"

4 die antwort

Return RDD der größten N Werte von einem anderen RDD in SPARK

Ich versuche, eine RDD von Tupeln zu filtern, um die größten N Tupel basierend auf Schlüsselwerten zurückzugeben. Ich brauche das Rückgabeformat, um ein RDD zu sein. So die RDD: [(4, 'a'), (12, 'e'), (2, 'u'), (49, 'y'), (6, 'p')] gefiltert ...

4 die antwort

Was ist der Unterschied zwischen Cache und Persist?

BezüglichRDD Persistenz, was sind die Unterschiede zwischencache() undpersist() im Funken?

2 die antwort

Apache Funke Umgang mit case Aussagen

Ich beschäftige mich mit der Umwandlung von SQL-Code in PySpark-Code und bin auf einige SQL-Anweisungen gestoßen. Ich weiß nicht, wie ich mit Fallaussagen im Pyspark umgehen soll. Ich plane, ein RDD zu erstellen und dann rdd.map zu verwenden und ...

TOP-Veröffentlichungen

28 die antwort

Differenz zwischen DataFrame, Dataset und RDD in Spark

Ich frage mich nur, was ist der Unterschied zwischen einemRDD undDataFrame (Spark 2.0.0 DataFrame ist ein reiner Typalias fürDataset[Row]) in Apache Spark? Kannst du eins in das andere konvertieren?

4 die antwort

Würde Spark das RDD selbst deaktivieren, wenn er merkt, dass es nicht mehr verwendet wird?

Wir können eine RDD im Speicher und / oder auf der Festplatte beibehalten, wenn wir sie mehrmals verwenden möchten. Müssen wir sie jedoch später selbst deaktivieren oder führt Spark eine Art Garbage Collection durch und deaktiviert die RDD, wenn ...

3 die antwort

Wie erhält man ein Element nach Index in Spark RDD (Java)

Ich kenne die Methode rdd.first (), die mir das erste Element in einer RDD gibt. Auch gibt es die Methode rdd.take (num), die mir die ersten "num" -Elemente gibt. Aber gibt es keine Möglichkeit, ein Element über den Index abzurufen? Vielen Dank

8 die antwort

Wie erhalte ich eine SQL-Zeilennummer für eine Spark-RDD?

Ich muss eine vollständige Liste der Zeilennummern für eine Datentabelle mit vielen Spalten generieren. In SQL würde dies so aussehen: select key_value, col1, col2, col3, row_number() over (partition by key_value order by col1, col2 desc, ...

2 die antwort

Spark RDD: Wie berechnet man Statistiken am effizientesten?

ngenommen, es gibt eine RDD mit Tupeln, die der folgenden ähnel (key1, 1) (key3, 9) (key2, 3) (key1, 4) (key1, 5) (key3, 2) (key2, 7) ...Was ist die effizienteste (und im Idealfall verteilte) Methode zur Berechnung von Statistiken, die den ...

8 die antwort

Berechnung der Durchschnittswerte für jeden KEY in einem paarweisen (K, V) RDD in Spark mit Python

Ich möchte diesen speziellen Apache Spark mit Python-Lösungen teilen, da die Dokumentation dafür ziemlich schlecht ist. Ich wollte den Durchschnittswert von K / V-Paaren (in einem paarweisen RDD gespeichert) mit KEY berechnen. So sehen die ...

12 die antwort

Eine RDD initialisieren, um @ zu leer

Ich habe ein RDD namens JavaPairRDD<String, List<String>> existingRDD; Jetzt muss ich dieses @ initialisierexistingRDD zu leeren, so dass ich eine Union mit diesem @ machen kann, wenn ich die tatsächlichen Rdd's bekomexistingRDD. Wie ...