Suchergebnisse für Anfrage "apache-spark"

2 die antwort

Wie kann ich Schlüssel-Wert-Paare erstellen?

Ich habe benutztgroupByKey auf meine Schlüssel-Wert-Paare. Jetzt habe ich das (Schlüssel, Iterable). Ich möchte diese Schlüssel-Wert-Paare daraus machen: ((Schlüssel, (ein Element der Liste)), 1) für alle Liste v. Wie kann ich das machen? Wie ...

8 die antwort

FetchFailedException oder MetadataFetchFailedException beim Verarbeiten einer großen Datenmenge

Wenn ich den Parsing-Code mit einem Datensatz von 1 GB ausführe, wird er ohne Fehler abgeschlossen. Wenn ich jedoch versuche, jeweils 25 GB Daten zu speichern, werden die folgenden Fehler angezeigt. Ich versuche zu verstehen, wie ich unter ...

6 die antwort

Während der Übergabe eines Jobs mit pyspark, wie kann man auf statische Dateien zugreifen, die mit dem Argument --files hochgeladen wurden?

Zum Beispiel habe ich einen Ordner: / - test.py - test.ymlund der Job wird gesendet, um den Cluster zu aktivieren mit: gcloud beta dataproc jobs submit pyspark --files=test.yml "test.py" in demtest.py, Ich möchte auf die hochgeladene ...

TOP-Veröffentlichungen

2 die antwort

First_value Fensterfunktion in Pyspark

Ich benutze Pyspark 1.5, um meine Daten aus Hive-Tabellen abzurufen und versuche, Fensterfunktionen zu verwenden. GemäßDie [https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html] gibt es eine analytische ...

4 die antwort

Spark + Scala-Transformationen, Unveränderlichkeit und Overheads beim Speicherverbrauch

Ich habe in Youtube einige Videos zu @ durchgeseheFunk [https://www.youtube.com/watch?v=65aV15uDKgA] die Architektur uch wenn eine langsame Auswertung, die Ausfallsicherheit der Datenerstellung im Fehlerfall und gute funktionale ...

10 die antwort

So berechnen Sie die kumulative Summe mit Spark

Ich habe eine rdd von (String, Int), die nach Schlüssel @ sortiert i val data = Array(("c1",6), ("c2",3),("c3",4)) val rdd = sc.parallelize(data).sortByKeyetzt möchte ich den Wert für den ersten Schlüssel mit Null und die nachfolgenden Schlüssel ...

2 die antwort

Spark Streaming: Wie kann ich meinem DStream weitere Partitionen hinzufügen?

Ich habe eine Spark-Streaming-App, die so aussieht: val message = KafkaUtils.createStream(...).map(_._2) message.foreachRDD( rdd => { if (!rdd.isEmpty){ val kafkaDF = sqlContext.read.json(rdd) kafkaDF.foreachPartition( i =>{ createConnection() ...

2 die antwort

Broadcast wird beim Verbinden von Datenrahmen in Spark 1.6 nicht gesendet

Below ist der Beispielcode, den ich ausführe. Wenn dieser Spark-Job ausgeführt wird, werden Dataframe-Joins mithilfe von sortmergejoin anstelle von broadcastjoin ausgeführt. def joinedDf (sqlContext: SQLContext, txnTable: DataFrame, ...

2 die antwort

Ist da eine Möglichkeit, die Sammlung in Spark @ zu mische

Ich muss eine Textdatei mit 2,2 * 10 ^ 9 Zeilen mischen. Gibt es eine Möglichkeit, wie ich es in Spark laden kann, dann jede Partition parallel mischen kann (für mich reicht es aus, im Rahmen der Partition zu mischen) und dann in die Datei ...

4 die antwort

Wie man die max Methode auf JavaPairRDD benutzt

Also, ich habe versucht, max in @ zu verwendJavaPairRDD konnte es aber nicht zum Laufen bringen. JavaPairRDD<Integer, String> someRdd = (initialisation) String maxValue = someRdd.max() //not workingMein Code:http: //ideone.com/0YXCJ ...