Cálculo de longitud de 95% -CI usando dplyr

Question

Mar 12, 2016, 04:26 AM

trend ggplot2 linechart r confidence-interval

Cálculo de longitud de 95% -CI usando dplyr

La última vez que pregunté cómo era posible calcular el puntaje promedio por ocasión de medición (semana) para una variable (procras) que se ha medido repetidamente para múltiples encuestados. Entonces, mi conjunto de datos (simplificado) en formato largo se ve, por ejemplo, como el siguiente (aquí dos estudiantes y 5 puntos de tiempo, sin variable de agrupación):

studentID  week   procras
   1        0     1.4
   1        6     1.2
   1        16    1.6
   1        28    NA
   1        40    3.8
   2        0     1.4
   2        6     1.8
   2        16    2.0
   2        28    2.5
   2        40    2.8

Usando dplyr obtendría el puntaje promedio por ocasión de medición

mean_data <- group_by(DataRlong, week)%>% summarise(procras = mean(procras, na.rm = TRUE))

Se ve así, por ejemplo:

Source: local data frame [5 x 2]
        occ  procras
      (dbl)    (dbl)
    1     0 1.993141
    2     6 2.124020
    3    16 2.251548
    4    28 2.469658
    5    40 2.617903

Con ggplot2 ahora podría trazar el cambio promedio en el tiempo, y ajustando fácilmente el group_data () de dplyr también podría obtener medias por subgrupos (por ejemplo, el puntaje promedio por ocasión para hombres y mujeres). Ahora me gustaría agregar una columna a la tabla mean_data que incluye la longitud de los IC del 95% alrededor del puntaje promedio por ocasión.

http://www.cookbook-r.com/Graphs/Plotting_means_and_error_bars_(ggplot2)/ explica cómo obtener y trazar CI, pero este enfoque parece volverse problemático tan pronto como quería hacer esto para cualquier subgrupo, ¿verdad? Entonces, ¿hay alguna manera de permitir que dplyr también incluya el CI (basado en el tamaño del grupo, etc.) automáticamente en mean_data? Después de eso, debería ser bastante fácil trazar los nuevos valores como CI en los gráficos, espero. Gracias.