El modelo funciona con glm pero no bigglm

Estaba tratando de ejecutar una regresión logística en 320,000 filas de datos (6 variables). La selección de modelo paso a paso en una muestra de datos (10000) proporciona un modelo bastante complejo con 5 términos de interacción:Y~X1+ X2*X3+ X2*X4+ X2*X5+ X3*X6+ X4*X5. losglm() La función podría ajustarse a este modelo con 10000 filas de datos, pero no con todo el conjunto de datos (320,000).

Utilizandobigglm leer fragmentos de datos de un servidor SQL resultó en un error, y no pude entender los resultados detraceback():

fit <- bigglm(Y~X1+ X2*X3+ X2*X4+ X2*X5+ X3*X6+ X4*X5, 
       data=sqlQuery(myconn,train_dat),family=binomial(link="logit"), 
       chunksize=1000, maxit=10)

Error in coef.bigqr(object$qr) : 
NA/NaN/Inf in foreign function call (arg 3)

> traceback()
11: .Fortran("regcf", as.integer(p), as.integer(p * p/2), bigQR$D, 
    bigQR$rbar, bigQR$thetab, bigQR$tol, beta = numeric(p), nreq = as.integer(nvar), 
    ier = integer(1), DUP = FALSE)
10: coef.bigqr(object$qr)
9: coef(object$qr)
8: coef.biglm(iwlm)
7: coef(iwlm)
6: bigglm.function(formula = formula, data = datafun, ...)
5: bigglm(formula = formula, data = datafun, ...)
4: bigglm(formula = formula, data = datafun, ...)

bigglm fue capaz de adaptarse a un modelo más pequeño con menos términos de interacción. perobigglm no pudo ajustar el mismo modelo con un conjunto de datos pequeño (10000 filas).

¿Alguien que haya tenido el mismo problema? ¿Algún otro enfoque para ejecutar un modelo logístico complejo con big data?

Respuestas a la pregunta(2)

Su respuesta a la pregunta