As previsões de Coxph não correspondem aos coeficientes

Question

Mar 16, 2017, 08:30 PM

r cox-regression predict survival-analysis cox

As previsões de Coxph não correspondem aos coeficientes

Boa tarde,

Eu poderia postar código reproduzível e certamente o farei se todos concordarem que algo está errado, mas agora acho que minha pergunta é bastante simples e alguém me indicará o caminho certo.

Estou trabalhando em um conjunto de dados como este:

created_as_free_user     t     c
                 <fctr> <int> <int>
1                  true    36     0
2                  true    36     0
3                  true     0     1
4                  true    28     0
5                  true     9     0
6                  true     0     1
7                  true    13     0
8                  true    19     0
9                  true     9     0
10                 true    16     0

Eu instalei um modelo de regressão Cox como este:

fit_train = coxph(Surv(time = t,event = c) ~ created_as_free_user ,data = teste)
summary(fit_train)

E recebeu:

Call:
coxph(formula = Surv(time = t, event = c) ~ created_as_free_user, 
    data = teste)

  n= 9000, number of events= 1233 

                            coef exp(coef) se(coef)      z Pr(>|z|)    
created_as_free_usertrue -0.7205    0.4865   0.1628 -4.426 9.59e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

                         exp(coef) exp(-coef) lower .95 upper .95
created_as_free_usertrue    0.4865      2.055    0.3536    0.6693

Concordance= 0.511  (se = 0.002 )
Rsquare= 0.002   (max possible= 0.908 )
Likelihood ratio test= 15.81  on 1 df,   p=7e-05
Wald test            = 19.59  on 1 df,   p=9.589e-06
Score (logrank) test = 20.45  on 1 df,   p=6.109e-06

Por enquanto, tudo bem. Próxima etapa: prever os resultados em novos dados. Entendo os diferentes tipos de previsões que o forecast.coxph pode me dar (ou pelo menos acho que sim). Vamos usar o tipo = "lp":

head(predict(fit_train,validacao,type = "lp"),n=20)

E pegue:

     1           2           3           4           5           6           7           8           9          10 
-0.01208854 -0.01208854 -0.01208854 -0.01208854 -0.01208854 -0.01208854 -0.01208854 -0.01208854 -0.01208854 -0.01208854 
         11          12          13          14          15          16          17          18          19          20 
-0.01208854 -0.01208854  0.70842049 -0.01208854 -0.01208854 -0.01208854 -0.01208854 -0.01208854 -0.01208854 -0.01208854

ESTÁ BEM. Mas quando olho para os dados que estou tentando estimar:

# A tibble: 9,000 × 3
   created_as_free_user     t     c
                 <fctr> <int> <int>
1                  true    20     0
2                  true    12     0
3                  true     0     1
4                  true    10     0
5                  true    51     0
6                  true    36     0
7                  true    44     0
8                  true     0     1
9                  true    27     0
10                 true     6     0
# ... with 8,990 more rows

Isso me faz confundir ....

O type = "lp" não deve fornecer as previsões lineares? Para esses dados acima que estou tentando estimar, como a variável created_as_free_user é igual a true, estou errado ao esperar que a previsão type = "lp" seja exatamente igual a -0,7205 (o coeficiente do modelo acima)? De onde veio o -0.01208854? Suspeito que seja algum tipo de situação de escala, mas não consegui encontrar a resposta online.

Meu objetivo final é o h (t) fornecido pelo tipo de previsão = "esperado", mas não me sinto tão confortável em usá-lo porque ele usa esse valor -0,01208854 que não entendo completamente.

Muito obrigado