Wie berechnet man das Perzentil der Spalte in einem DataFrame im Spark?

Question

Jun 07, 2016, 01:30 AM

spark-dataframe apache-spark apache-spark-sql scala

Wie berechnet man das Perzentil der Spalte in einem DataFrame im Spark?

Ich versuche, das Perzentil einer Spalte in einem DataFrame zu berechnen. Ich kann keine Percentile_approx-Funktion in Spark-Aggregationsfunktionen finden.

Für z.B. in Hive haben wir percentile_approx und wir können es auf folgende Weise benutzen

hiveContext.sql("select percentile_approx("Open_Rate",0.10) from myTable);

Aber ich möchte es aus Leistungsgründen mit Spark DataFrame machen.

Beispieldatensatz

|User ID|Open_Rate|
------------------- 
|A1     |10.3     |
|B1     |4.04     |
|C1     |21.7     |
|D1     |18.6     |

Ich möchte herausfinden, wie viele Benutzer in 10 oder 20 Prozent fallen und so weiter. Ich möchte so etwas tun

df.select($"id",Percentile($"Open_Rate",0.1)).show

Antworten auf die Frage(4)

Top Fragen

0 die antwort

HTML-Eingabetyp = "Zahl" gibt beim Zugriff über JavaScript immer noch eine Zeichenfolge zurück

0 die antwort

Wie funktioniert das Ersetzen von Texten in CSS?

0 die antwort

Wie werden Anforderungen (Spezifikationen) in Visual Studio Team Services (TFS) verwaltet?

0 die antwort

Android - Programmgesteuertes Interagieren mit dem USSD-Dialog

0 die antwort

Wie gehe ich mit mehreren Joins um?

Du bist sehr aktiv! Es ist großartig!

Wie berechnet man das Perzentil der Spalte in einem DataFrame im Spark?

Antworten auf die Frage(4)

Ihre Antwort auf die Frage

Top Fragen