¿Cómo calcular la mediana en conjunto de datos agrupados?
Mi conjunto de datos es el siguiente:
salary number
1500-1600 110
1600-1700 180
1700-1800 320
1800-1900 460
1900-2000 850
2000-2100 250
2100-2200 130
2200-2300 70
2300-2400 20
2400-2500 10
¿Cómo puedo calcular la mediana de este conjunto de datos? Esto es lo que he intentado:
x <- c(110, 180, 320, 460, 850, 250, 130, 70, 20, 10)
colnames <- "numbers"
rownames <- c("[1500-1600]", "(1600-1700]", "(1700-1800]", "(1800-1900]",
"(1900-2000]", "(2000,2100]", "(2100-2200]", "(2200-2300]",
"(2300-2400]", "(2400-2500]")
y <- matrix(x, nrow=length(x), dimnames=list(rownames, colnames))
data.frame(y, "cumsum"=cumsum(y))
numbers cumsum
[1500-1600] 110 110
(1600-1700] 180 290
(1700-1800] 320 610
(1800-1900] 460 1070
(1900-2000] 850 1920
(2000,2100] 250 2170
(2100-2200] 130 2300
(2200-2300] 70 2370
(2300-2400] 20 2390
(2400-2500] 10 2400
Aquí, puedes ver que la frecuencia de medio camino es2400/2
=1200
. Esta entre1070
y1920
. Por lo tanto, laclase media es el(1900-2000]
grupo. Puedes usar la siguiente fórmula para obtener este resultado:
Mediana = L + h / f (n / 2 - c)
dónde:
L es el límite de clase inferior de la clase media
h es el tamaño de la clase media, es decir, la diferencia entre los límites de clase superior e inferior de la clase media
f es la frecuencia de la clase media
c Es la frecuencia acumulativa previa de la clase media.
n / 2 es total no. de observaciones divididas por 2 (es decir, sumaf / 2)
Alternativamente,clase media Se define por el siguiente método:
Localice n / 2 en la columna de frecuencia acumulada.
Obtener la clase en la que se encuentra esto.
Y en código:
> 1900 + (1200 - 1070) / (1920 - 1070) * (2000 - 1900)
[1] 1915.294
Ahora lo que quiero hacer es hacer que la expresión anterior sea más elegante, es decir,1900+(1200-1070)/(1920-1070)*(2000-1900)
. ¿Cómo puedo conseguir esto?