Suchergebnisse für Anfrage "apache-spark"
Wie kann ich Schlüssel-Wert-Paare erstellen?
Ich habe benutztgroupByKey auf meine Schlüssel-Wert-Paare. Jetzt habe ich das (Schlüssel, Iterable). Ich möchte diese Schlüssel-Wert-Paare daraus machen: ((Schlüssel, (ein Element der Liste)), 1) für alle Liste v. Wie kann ich das machen? Wie ...
FetchFailedException oder MetadataFetchFailedException beim Verarbeiten einer großen Datenmenge
Wenn ich den Parsing-Code mit einem Datensatz von 1 GB ausführe, wird er ohne Fehler abgeschlossen. Wenn ich jedoch versuche, jeweils 25 GB Daten zu speichern, werden die folgenden Fehler angezeigt. Ich versuche zu verstehen, wie ich unter ...
Während der Übergabe eines Jobs mit pyspark, wie kann man auf statische Dateien zugreifen, die mit dem Argument --files hochgeladen wurden?
Zum Beispiel habe ich einen Ordner: / - test.py - test.ymlund der Job wird gesendet, um den Cluster zu aktivieren mit: gcloud beta dataproc jobs submit pyspark --files=test.yml "test.py" in demtest.py, Ich möchte auf die hochgeladene ...
First_value Fensterfunktion in Pyspark
Ich benutze Pyspark 1.5, um meine Daten aus Hive-Tabellen abzurufen und versuche, Fensterfunktionen zu verwenden. GemäßDie [https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html] gibt es eine analytische ...
Spark + Scala-Transformationen, Unveränderlichkeit und Overheads beim Speicherverbrauch
Ich habe in Youtube einige Videos zu @ durchgeseheFunk [https://www.youtube.com/watch?v=65aV15uDKgA] die Architektur uch wenn eine langsame Auswertung, die Ausfallsicherheit der Datenerstellung im Fehlerfall und gute funktionale ...
So berechnen Sie die kumulative Summe mit Spark
Ich habe eine rdd von (String, Int), die nach Schlüssel @ sortiert i val data = Array(("c1",6), ("c2",3),("c3",4)) val rdd = sc.parallelize(data).sortByKeyetzt möchte ich den Wert für den ersten Schlüssel mit Null und die nachfolgenden Schlüssel ...
Spark Streaming: Wie kann ich meinem DStream weitere Partitionen hinzufügen?
Ich habe eine Spark-Streaming-App, die so aussieht: val message = KafkaUtils.createStream(...).map(_._2) message.foreachRDD( rdd => { if (!rdd.isEmpty){ val kafkaDF = sqlContext.read.json(rdd) kafkaDF.foreachPartition( i =>{ createConnection() ...
Broadcast wird beim Verbinden von Datenrahmen in Spark 1.6 nicht gesendet
Below ist der Beispielcode, den ich ausführe. Wenn dieser Spark-Job ausgeführt wird, werden Dataframe-Joins mithilfe von sortmergejoin anstelle von broadcastjoin ausgeführt. def joinedDf (sqlContext: SQLContext, txnTable: DataFrame, ...
Ist da eine Möglichkeit, die Sammlung in Spark @ zu mische
Ich muss eine Textdatei mit 2,2 * 10 ^ 9 Zeilen mischen. Gibt es eine Möglichkeit, wie ich es in Spark laden kann, dann jede Partition parallel mischen kann (für mich reicht es aus, im Rahmen der Partition zu mischen) und dann in die Datei ...
Wie man die max Methode auf JavaPairRDD benutzt
Also, ich habe versucht, max in @ zu verwendJavaPairRDD konnte es aber nicht zum Laufen bringen. JavaPairRDD<Integer, String> someRdd = (initialisation) String maxValue = someRdd.max() //not workingMein Code:http: //ideone.com/0YXCJ ...