Wie finde ich Median und Quantile mit Spark
Wie kann ich den Median eines @ findeRDD
von Ganzzahlen mit einer verteilten Methode, IPython und Spark? DasRDD
ist ungefähr 700.000 Elemente und daher zu groß, um den Median zu sammeln und zu finden.
Diese Frage ähnelt dieser Frage. Die Antwort auf die Frage ist jedoch mit Scala, die ich nicht kenne.
Wie kann ich mit Apache Spark den exakten Median berechnen?
it dem Nachdenken über die Scala-Antwort versuche ich, eine ähnliche Antwort in Python zu schreibe
Ich weiß, ich möchte zuerst das @ sortierRDD
. Ich weiß nicht wie. Ich sehe dassortBy
(Sortiert diese RDD nach dem angegebenenkeyfunc
) undsortByKey
(Sortiert diesesRDD
, das aus (Schlüssel-, Wert-) Paaren bestehen soll.) Methoden. Ich denke, beide verwenden Schlüsselwert und meinRDD
hat nur ganzzahlige Elemente.
myrdd.sortBy(lambda x: x)
?Next Ich werde die Länge des Rdd finden rdd.count()
). Schließlich möchte ich das Element oder die 2 Elemente in der Mitte des rdd finden. Ich brauche auch Hilfe bei dieser Methode.BEARBEITEN
Ich hatte eine Idee. Vielleicht kann ich mein @ indizierRDD
und dann key = index und value = element. Und dann kann ich versuchen, nach Wert zu sortieren? Ich weiß nicht, ob das möglich ist, weil es nur ein @ gisortByKey
Methode