O modelo é executado com glm, mas não bigglm

Eu estava tentando executar uma regressão logística em 320.000 linhas de dados (6 variáveis). A seleção do modelo stepwise em uma amostra dos dados (10000) fornece um modelo bastante complexo com 5 termos de interação:Y~X1+ X2*X3+ X2*X4+ X2*X5+ X3*X6+ X4*X5. oglm() A função poderia ajustar esse modelo com 10.000 linhas de dados, mas não com todo o conjunto de dados (320.000).

Usandobigglm ler trecho de dados por trecho de um servidor SQL resultou em um erro e eu não conseguia entender os resultados detraceback():

fit <- bigglm(Y~X1+ X2*X3+ X2*X4+ X2*X5+ X3*X6+ X4*X5, 
       data=sqlQuery(myconn,train_dat),family=binomial(link="logit"), 
       chunksize=1000, maxit=10)

Error in coef.bigqr(object$qr) : 
NA/NaN/Inf in foreign function call (arg 3)

> traceback()
11: .Fortran("regcf", as.integer(p), as.integer(p * p/2), bigQR$D, 
    bigQR$rbar, bigQR$thetab, bigQR$tol, beta = numeric(p), nreq = as.integer(nvar), 
    ier = integer(1), DUP = FALSE)
10: coef.bigqr(object$qr)
9: coef(object$qr)
8: coef.biglm(iwlm)
7: coef(iwlm)
6: bigglm.function(formula = formula, data = datafun, ...)
5: bigglm(formula = formula, data = datafun, ...)
4: bigglm(formula = formula, data = datafun, ...)

bigglm conseguiu ajustar um modelo menor com menos termos de interação. masbigglm não conseguiu ajustar o mesmo modelo com um pequeno conjunto de dados (10000 linhas).

Alguém já passou por esse problema antes? Alguma outra abordagem para executar um modelo logístico complexo com big data?

questionAnswers(2)

yourAnswerToTheQuestion