Wie finde ich den Median in Apache Spark mit der Python Dataframe-API?

Question

Aug 03, 2016, 02:19 PM

Wie finde ich den Median in Apache Spark mit der Python Dataframe-API?

ie @ Pyspark-API bietet außer dem Median viele Aggregatfunktionen. Spark 2 wird mit approxQuantile geliefert, das ungefähre Quantile angibt, die Berechnung des genauen Medians ist jedoch sehr teuer. Gibt es eine bessere Methode zur Berechnung des Medians für eine Spalte von Werten in einem Spark-Datenrahmen?