Cálculo de longitud de 95% -CI usando dplyr
La última vez que pregunté cómo era posible calcular el puntaje promedio por ocasión de medición (semana) para una variable (procras) que se ha medido repetidamente para múltiples encuestados. Entonces, mi conjunto de datos (simplificado) en formato largo se ve, por ejemplo, como el siguiente (aquí dos estudiantes y 5 puntos de tiempo, sin variable de agrupación):
studentID week procras
1 0 1.4
1 6 1.2
1 16 1.6
1 28 NA
1 40 3.8
2 0 1.4
2 6 1.8
2 16 2.0
2 28 2.5
2 40 2.8
Usando dplyr obtendría el puntaje promedio por ocasión de medición
mean_data <- group_by(DataRlong, week)%>% summarise(procras = mean(procras, na.rm = TRUE))
Se ve así, por ejemplo:
Source: local data frame [5 x 2]
occ procras
(dbl) (dbl)
1 0 1.993141
2 6 2.124020
3 16 2.251548
4 28 2.469658
5 40 2.617903
Con ggplot2 ahora podría trazar el cambio promedio en el tiempo, y ajustando fácilmente el group_data () de dplyr también podría obtener medias por subgrupos (por ejemplo, el puntaje promedio por ocasión para hombres y mujeres). Ahora me gustaría agregar una columna a la tabla mean_data que incluye la longitud de los IC del 95% alrededor del puntaje promedio por ocasión.
http://www.cookbook-r.com/Graphs/Plotting_means_and_error_bars_(ggplot2)/ explica cómo obtener y trazar CI, pero este enfoque parece volverse problemático tan pronto como quería hacer esto para cualquier subgrupo, ¿verdad? Entonces, ¿hay alguna manera de permitir que dplyr también incluya el CI (basado en el tamaño del grupo, etc.) automáticamente en mean_data? Después de eso, debería ser bastante fácil trazar los nuevos valores como CI en los gráficos, espero. Gracias.