como calcular a mediana no conjunto de dados agrupados?
Meu conjunto de dados é o seguinte:
salary number
1500-1600 110
1600-1700 180
1700-1800 320
1800-1900 460
1900-2000 850
2000-2100 250
2100-2200 130
2200-2300 70
2300-2400 20
2400-2500 10
Como posso calcular a mediana deste conjunto de dados? Aqui está o que eu tentei:
x <- c(110, 180, 320, 460, 850, 250, 130, 70, 20, 10)
colnames <- "numbers"
rownames <- c("[1500-1600]", "(1600-1700]", "(1700-1800]", "(1800-1900]",
"(1900-2000]", "(2000,2100]", "(2100-2200]", "(2200-2300]",
"(2300-2400]", "(2400-2500]")
y <- matrix(x, nrow=length(x), dimnames=list(rownames, colnames))
data.frame(y, "cumsum"=cumsum(y))
numbers cumsum
[1500-1600] 110 110
(1600-1700] 180 290
(1700-1800] 320 610
(1800-1900] 460 1070
(1900-2000] 850 1920
(2000,2100] 250 2170
(2100-2200] 130 2300
(2200-2300] 70 2370
(2300-2400] 20 2390
(2400-2500] 10 2400
Aqui, você pode ver que a frequência intermediária é2400/2
=1200
. Está entre1070
e1920
. Então, oclasse mediana é o(1900-2000]
grupo. Você pode usar a fórmula abaixo para obter este resultado:
Mediana = L + h / f (n / 2 - c)
Onde:
L é o limite de classe inferior da classe mediana
h é o tamanho da classe mediana, ou seja, a diferença entre os limites de classe superior e inferior da classe mediana
f é a frequência da classe mediana
c é frequência cumulativa anterior da classe mediana
n / 2 é total não. de observações dividido por 2 (ou seja, somaf 2)
Alternativamente,classe mediana é definido pelo seguinte método:
Localize n / 2 na coluna de frequência acumulativa.
Pegue a turma em que isso está.
E no código:
> 1900 + (1200 - 1070) / (1920 - 1070) * (2000 - 1900)
[1] 1915.294
Agora, o que eu quero fazer é tornar a expressão acima mais elegante - ou seja,1900+(1200-1070)/(1920-1070)*(2000-1900)
. Como posso conseguir isso?