¿regresión rodante por grupo en el tidyverse?
Hay muchas preguntas sobre la regresión progresiva en R, pero aquí estoy buscando específicamente algo que usedplyr
, broom
y (si es necesario)purrr
.
Esto es lo que hace que esta pregunta sea diferente. quiero sertidyverse
consistente. Es posible hacer una regresión de ejecución adecuada con herramientas ordenadas comopurrr:map
ydplyr
?
Considere este simple ejemplo:
library(dplyr)
library(purrr)
library(broom)
library(zoo)
library(lubridate)
mydata = data_frame('group' = c('a','a', 'a','a','b', 'b', 'b', 'b'),
'y' = c(1,2,3,4,2,3,4,5),
'x' = c(2,4,6,8,6,9,12,15),
'date' = c(ymd('2016-06-01', '2016-06-02', '2016-06-03', '2016-06-04',
'2016-06-03', '2016-06-04', '2016-06-05','2016-06-06')))
group y x date
<chr> <dbl> <dbl> <date>
1 a 1.00 2.00 2016-06-01
2 a 2.00 4.00 2016-06-02
3 a 3.00 6.00 2016-06-03
4 a 4.00 8.00 2016-06-04
5 b 2.00 6.00 2016-06-03
6 b 3.00 9.00 2016-06-04
7 b 4.00 12.0 2016-06-05
8 b 5.00 15.0 2016-06-06
Para cada grupo (en este ejemplo,a
ob
):
y
enx
en las últimas 2 observaciones.almacenar el coeficiente de esa regresión continua en una columna del marco de datos.Por supuesto, como puede ver, la regresión continua solo se puede calcular para las últimas 2 filas en cada grupo.
He tratado de usar lo siguiente, pero sin éxito.
data %>% group_by(group) %>%
mutate(rolling_coef = do(tidy(rollapply(. ,
width=2,
FUN = function(df) {t = lm(formula=y ~ x,
data = as.data.frame(df),
na.rm=TRUE);
return(t$coef) },
by.column=FALSE, align="right"))))
Error in mutate_impl(.data, dots) :
Evaluation error: subscript out of bounds.
In addition: There were 21 warnings (use warnings() to see them)
¿Algunas ideas?
Salida esperada para las dos últimas filas de la primeraa
grupo es 0.5 y 0.5 (de hecho, existe una correlación lineal perfecta entrey
yx
en este ejemplo)
Más específicamente:
mydata_1 <- mydata %>% filter(group == 'a',
row_number() %in% c(1,2))
# A tibble: 2 x 3
group y x
<chr> <dbl> <dbl>
1 a 1.00 2.00
2 a 2.00 4.00
> tidy(lm(y ~ x, mydata_1))['estimate'][2,]
[1] 0.5
y también
mydata_2 <- mydata %>% filter(group == 'a',
row_number() %in% c(2,3))
# A tibble: 2 x 3
group y x
<chr> <dbl> <dbl>
1 a 2.00 4.00
2 a 3.00 6.00
> tidy(lm(y ~ x, mydata_2))['estimate'][2,]
[1] 0.5
EDITAR:
interesante seguimiento a esta pregunta aquíregresión rodante con intervalo de confianza (tidyverse)