Suchergebnisse für Anfrage "rdd"
Berechnung der Durchschnittswerte für jeden KEY in einem paarweisen (K, V) RDD in Spark mit Python
Ich möchte diesen speziellen Apache Spark mit Python-Lösungen teilen, da die Dokumentation dafür ziemlich schlecht ist. Ich wollte den Durchschnittswert von K / V-Paaren (in einem paarweisen RDD gespeichert) mit KEY berechnen. So sehen die ...
reduceByKey: Wie funktioniert es intern?
Ich bin neu bei Spark und Scala. Ich war verwirrt darüber, wie die Funktion reductByKey in Spark funktioniert. Angenommen, wir haben den folgenden Code: val lines = sc.textFile("data.txt") val pairs = lines.map(s => (s, 1)) val counts = ...
Wie werden Elemente einer bestimmten RDD-Partition in Spark gedruckt?
Wie drucke ich die Elemente einer bestimmten Partition, zB 5th, alleine? val distData = sc.parallelize(1 to 50, 10)
Spark wenn Union viele RDD Stapelüberlauffehler auslöst
Wenn ich "++" verwende, um viele RDDs zu kombinieren, tritt ein Fehler-Stack-Over-Flow-Fehler auf. Spark Version 1.3.1 Umgebung: Woll-Client. --treiber-speicher 8G Die Anzahl der RDDs beträgt mehr als 4000. Jede RDD wird aus einer ...
Wie überprüfe ich, ob sich Spark RDD im Speicher befindet?
Ich habe eine Instanz von org.apache.spark.rdd.RDD [MyClass]. Wie kann ich programmgesteuert überprüfen, ob die Instanz \ inmemory persistent ist?
Spark rdd schreibe in globale Liste
Wie schreibe ich mit rdd in eine globale Liste? Li = [] Fn(list): If list.value == 4: Li.append(1) rdd.mapValues(lambda x:fn(x)) Wenn ich versuche, Li zu drucken, ist das Ergebnis: [] Was ich versuche zu tun ist, eine andere globale Liste Li1 ...
Spark groupByKey alternative
Nach den Best Practices von Databricks ist SparkgroupByKey sollte vermieden werden, da SparkgroupByKeyie @ -Verarbeitung funktioniert so, dass die Informationen zuerst zwischen den Mitarbeitern gemischt werden und dann die Verarbeitung ...
Gibt es eine Möglichkeit, Spark RDD distinct neu zu schreiben, um mapPartitions anstelle von distinct zu verwenden?
Ich habe eine RDD, die zu groß ist, um eine eindeutige Anweisung ohne fehlerhafte Fehler konsistent auszuführen (z. B. 4-maliges Fehlschlagen der SparkException-Stufe, ExecutorLostFailure, HDFS-Dateisystem geschlossen, maximale Anzahl von ...
PySpark - Zeitüberschneidung für Objekt in RDD
Mein Ziel ist es, Objekte nach Zeitüberschneidungen zu gruppieren. Jedes Objekt in meinemrdd enthält einstart_time undend_time. Ich gehe das wahrscheinlich ineffizient an, aber ich plane, jedem Objekt eine Überlappungs-ID zuzuweisen, basierend ...
DataFrame-Gleichheit in Apache Spark
Annehmendf1 unddf2 sind zweiDataFrames in Apache Spark, berechnet mit zwei verschiedenen Mechanismen, z. B. Spark SQL im Vergleich zur Scala / Java / Python-API. Gibt es eine idiomatische Methode, um festzustellen, ob die beiden ...