Como calcular o percentil da coluna em um DataFrame no spark?

Question

Jun 07, 2016, 01:30 AM

spark-dataframe apache-spark-sql scala apache-spark

Como calcular o percentil da coluna em um DataFrame no spark?

Estou tentando calcular o percentil de uma coluna em um DataFrame? Não consigo encontrar nenhuma função percentil_prox nas funções de agregação do Spark.

Por ex. no Hive, temos percentil_aprox e podemos usá-lo da seguinte maneira

hiveContext.sql("select percentile_approx("Open_Rate",0.10) from myTable);

Mas eu quero fazer isso usando o Spark DataFrame por razões de desempenho.

Conjunto de dados de amostra

|User ID|Open_Rate|
------------------- 
|A1     |10.3     |
|B1     |4.04     |
|C1     |21.7     |
|D1     |18.6     |

Quero descobrir quantos usuários se enquadram no percentil 10 ou 20 e assim por diante. Eu quero fazer algo assim

df.select($"id",Percentile($"Open_Rate",0.1)).show

questionAnswers(2)

Perguntas populares

0 a resposta

Como iniciar automaticamente um aplicativo Android?

0 a resposta

Spring + Angular Não é possível fazer upload do mesmo arquivo duas vezes

0 a resposta

Alinhar à linha do cache e saber o tamanho da linha do cache

0 a resposta

Como classificar os resultados de find (incluindo diretórios aninhados) em ordem alfabética no bash

0 a resposta

Diferença entre o jar do plug-in de origem do Maven e o objetivo jar-no-fork?

Você é muito ativo! É ótimo!

Como calcular o percentil da coluna em um DataFrame no spark?

questionAnswers(2)

yourAnswerToTheQuestion

Perguntas populares