¿Cómo acelerar la estimación de GLM?
Estoy utilizando RStudio 0.97.320 (R 2.15.3) en Amazon EC2. Mi marco de datos tiene 200k filas y 12 columnas.
Estoy tratando de ajustar una regresión logística con aproximadamente 1500 parámetros.
R está utilizando un 7% de CPU y tiene más de 60 GB de memoria y todavía lleva mucho tiempo.
Aquí está el código:
glm.1.2 <- glm(formula = Y ~ factor(X1) * log(X2) * (X3 + X4 * (X5 + I(X5^2)) * (X8 + I(X8^2)) + ((X6 + I(X6^2)) * factor(X7))),
family = binomial(logit), data = df[1:150000,])
¿Alguna sugerencia para acelerar esto por una cantidad significativa?