Suchergebnisse für Anfrage "rdd"

8 die antwort

Berechnung der Durchschnittswerte für jeden KEY in einem paarweisen (K, V) RDD in Spark mit Python

Ich möchte diesen speziellen Apache Spark mit Python-Lösungen teilen, da die Dokumentation dafür ziemlich schlecht ist. Ich wollte den Durchschnittswert von K / V-Paaren (in einem paarweisen RDD gespeichert) mit KEY berechnen. So sehen die ...

8 die antwort

reduceByKey: Wie funktioniert es intern?

Ich bin neu bei Spark und Scala. Ich war verwirrt darüber, wie die Funktion reductByKey in Spark funktioniert. Angenommen, wir haben den folgenden Code: val lines = sc.textFile("data.txt") val pairs = lines.map(s => (s, 1)) val counts = ...

6 die antwort

Wie werden Elemente einer bestimmten RDD-Partition in Spark gedruckt?

Wie drucke ich die Elemente einer bestimmten Partition, zB 5th, alleine? val distData = sc.parallelize(1 to 50, 10)

TOP-Veröffentlichungen

4 die antwort

Spark wenn Union viele RDD Stapelüberlauffehler auslöst

Wenn ich "++" verwende, um viele RDDs zu kombinieren, tritt ein Fehler-Stack-Over-Flow-Fehler auf. Spark Version 1.3.1 Umgebung: Woll-Client. --treiber-speicher 8G Die Anzahl der RDDs beträgt mehr als 4000. Jede RDD wird aus einer ...

4 die antwort

Wie überprüfe ich, ob sich Spark RDD im Speicher befindet?

Ich habe eine Instanz von org.apache.spark.rdd.RDD [MyClass]. Wie kann ich programmgesteuert überprüfen, ob die Instanz \ inmemory persistent ist?

2 die antwort

Spark rdd schreibe in globale Liste

Wie schreibe ich mit rdd in eine globale Liste? Li = [] Fn(list): If list.value == 4: Li.append(1) rdd.mapValues(lambda x:fn(x)) Wenn ich versuche, Li zu drucken, ist das Ergebnis: [] Was ich versuche zu tun ist, eine andere globale Liste Li1 ...

2 die antwort

Spark groupByKey alternative

Nach den Best Practices von Databricks ist SparkgroupByKey sollte vermieden werden, da SparkgroupByKeyie @ -Verarbeitung funktioniert so, dass die Informationen zuerst zwischen den Mitarbeitern gemischt werden und dann die Verarbeitung ...

2 die antwort

Gibt es eine Möglichkeit, Spark RDD distinct neu zu schreiben, um mapPartitions anstelle von distinct zu verwenden?

Ich habe eine RDD, die zu groß ist, um eine eindeutige Anweisung ohne fehlerhafte Fehler konsistent auszuführen (z. B. 4-maliges Fehlschlagen der SparkException-Stufe, ExecutorLostFailure, HDFS-Dateisystem geschlossen, maximale Anzahl von ...

2 die antwort

PySpark - Zeitüberschneidung für Objekt in RDD

Mein Ziel ist es, Objekte nach Zeitüberschneidungen zu gruppieren. Jedes Objekt in meinemrdd enthält einstart_time undend_time. Ich gehe das wahrscheinlich ineffizient an, aber ich plane, jedem Objekt eine Überlappungs-ID zuzuweisen, basierend ...

10 die antwort

DataFrame-Gleichheit in Apache Spark

Annehmendf1 unddf2 sind zweiDataFrames in Apache Spark, berechnet mit zwei verschiedenen Mechanismen, z. B. Spark SQL im Vergleich zur Scala / Java / Python-API. Gibt es eine idiomatische Methode, um festzustellen, ob die beiden ...