¿regresión rodante por grupo en el tidyverse?

Question

Apr 10, 2018, 10:09 PM

¿regresión rodante por grupo en el tidyverse?

Hay muchas preguntas sobre la regresión progresiva en R, pero aquí estoy buscando específicamente algo que usedplyr, broom y (si es necesario)purrr.

Esto es lo que hace que esta pregunta sea diferente. quiero sertidyverse consistente. Es posible hacer una regresión de ejecución adecuada con herramientas ordenadas comopurrr:map ydplyr?

Considere este simple ejemplo:

library(dplyr)
library(purrr)
library(broom)
library(zoo)
library(lubridate)

mydata = data_frame('group' = c('a','a', 'a','a','b', 'b', 'b', 'b'),
                     'y' = c(1,2,3,4,2,3,4,5),
                     'x' = c(2,4,6,8,6,9,12,15),
                     'date' = c(ymd('2016-06-01', '2016-06-02', '2016-06-03', '2016-06-04',
                                    '2016-06-03', '2016-06-04', '2016-06-05','2016-06-06')))

  group     y     x date      
  <chr> <dbl> <dbl> <date>    
1 a      1.00  2.00 2016-06-01
2 a      2.00  4.00 2016-06-02
3 a      3.00  6.00 2016-06-03
4 a      4.00  8.00 2016-06-04
5 b      2.00  6.00 2016-06-03
6 b      3.00  9.00 2016-06-04
7 b      4.00 12.0  2016-06-05
8 b      5.00 15.0  2016-06-06

Para cada grupo (en este ejemplo,a ob):

calcular ellaminación regresión dey enx en las últimas 2 observaciones.almacenar el coeficiente de esa regresión continua en una columna del marco de datos.

Por supuesto, como puede ver, la regresión continua solo se puede calcular para las últimas 2 filas en cada grupo.

He tratado de usar lo siguiente, pero sin éxito.

data %>% group_by(group) %>% 
  mutate(rolling_coef = do(tidy(rollapply(. ,
                    width=2, 
                    FUN = function(df) {t = lm(formula=y ~ x, 
                                              data = as.data.frame(df), 
                                              na.rm=TRUE); 
                    return(t$coef) },
                    by.column=FALSE, align="right"))))
Error in mutate_impl(.data, dots) : 
  Evaluation error: subscript out of bounds.
In addition: There were 21 warnings (use warnings() to see them)

¿Algunas ideas?

Salida esperada para las dos últimas filas de la primeraa grupo es 0.5 y 0.5 (de hecho, existe una correlación lineal perfecta entrey yx en este ejemplo)

Más específicamente:

mydata_1 <- mydata %>% filter(group == 'a',
                  row_number() %in% c(1,2))
# A tibble: 2 x 3
  group     y     x
  <chr> <dbl> <dbl>
1 a      1.00  2.00
2 a      2.00  4.00
> tidy(lm(y ~ x, mydata_1))['estimate'][2,]
[1] 0.5

y también

mydata_2 <- mydata %>% filter(group == 'a',
                              row_number() %in% c(2,3)) 
# A tibble: 2 x 3
  group     y     x
  <chr> <dbl> <dbl>
1 a      2.00  4.00
2 a      3.00  6.00
> tidy(lm(y ~ x, mydata_2))['estimate'][2,]
[1] 0.5

EDITAR:

interesante seguimiento a esta pregunta aquíregresión rodante con intervalo de confianza (tidyverse)