Jak przyspieszyć szacowanie GLM?
Używam RStudio 0.97.320 (R 2.15.3) na Amazon EC2. Moja ramka danych ma 200k wierszy i 12 kolumn.
Próbuję dopasować regresję logistyczną z około 1500 parametrami.
R używa 7% procesora i ma pamięć 60 + GB i wciąż trwa bardzo długo.
Oto kod:
glm.1.2 <- glm(formula = Y ~ factor(X1) * log(X2) * (X3 + X4 * (X5 + I(X5^2)) * (X8 + I(X8^2)) + ((X6 + I(X6^2)) * factor(X7))),
family = binomial(logit), data = df[1:150000,])
Jakieś sugestie, aby przyspieszyć o znaczną kwotę?