O modelo é executado com glm, mas não bigglm
Eu estava tentando executar uma regressão logística em 320.000 linhas de dados (6 variáveis). A seleção do modelo stepwise em uma amostra dos dados (10000) fornece um modelo bastante complexo com 5 termos de interação:Y~X1+ X2*X3+ X2*X4+ X2*X5+ X3*X6+ X4*X5
. oglm()
A função poderia ajustar esse modelo com 10.000 linhas de dados, mas não com todo o conjunto de dados (320.000).
Usandobigglm
ler trecho de dados por trecho de um servidor SQL resultou em um erro e eu não conseguia entender os resultados detraceback()
:
fit <- bigglm(Y~X1+ X2*X3+ X2*X4+ X2*X5+ X3*X6+ X4*X5,
data=sqlQuery(myconn,train_dat),family=binomial(link="logit"),
chunksize=1000, maxit=10)
Error in coef.bigqr(object$qr) :
NA/NaN/Inf in foreign function call (arg 3)
> traceback()
11: .Fortran("regcf", as.integer(p), as.integer(p * p/2), bigQR$D,
bigQR$rbar, bigQR$thetab, bigQR$tol, beta = numeric(p), nreq = as.integer(nvar),
ier = integer(1), DUP = FALSE)
10: coef.bigqr(object$qr)
9: coef(object$qr)
8: coef.biglm(iwlm)
7: coef(iwlm)
6: bigglm.function(formula = formula, data = datafun, ...)
5: bigglm(formula = formula, data = datafun, ...)
4: bigglm(formula = formula, data = datafun, ...)
bigglm
conseguiu ajustar um modelo menor com menos termos de interação. masbigglm
não conseguiu ajustar o mesmo modelo com um pequeno conjunto de dados (10000 linhas).
Alguém já passou por esse problema antes? Alguma outra abordagem para executar um modelo logístico complexo com big data?