¿Corrección de la regresión logística en Vowpal Wabbit?
He empezado a usarVowpal Wabbit para la regresión logística, sin embargo, no puedo reproducir los resultados que da. Quizás haya algo de "magia" indocumentada, pero ¿alguien ha podido replicar / verificar / verificar los cálculos para la regresión logística?
Por ejemplo, con los datos simples a continuación, nuestro objetivo es modelar la formaage
predicelabel
. Es obvio que existe una fuerte relación, ya que cuando la edad aumenta, la probabilidad de observar 1 aumenta.
Como prueba de unidad simple, utilicé las 12 filas de datos a continuación:
age label
20 0
25 0
30 0
35 0
40 0
50 0
60 1
65 0
70 1
75 1
77 1
80 1
Ahora, realizando una regresión logística en este conjunto de datos, utilizandoR , SPSS o incluso a mano, produce un modelo que se parece aL = 0.2294*age - 14.08
. Entonces, si sustituyo la edad y uso la transformación logit prob = 1 / (1 + EXP (-L)) puedo obtener las probabilidades predichas que van desde0.0001
para la primera fila, a0.9864
para la última fila, como se esperaba razonablemente.
Si conecto los mismos datos enVowpal Wabbit,
-1 'P1 |f age:20
-1 'P2 |f age:25
-1 'P3 |f age:30
-1 'P4 |f age:35
-1 'P5 |f age:40
-1 'P6 |f age:50
1 'P7 |f age:60
-1 'P8 |f age:65
1 'P9 |f age:70
1 'P10 |f age:75
1 'P11 |f age:77
1 'P12 |f age:80
Y luego realice una regresión logística usando
vw -d data.txt -f demo_model.vw --loss_function logistic --invert_hash aaa
(línea de comando consistente conCómo realizar una regresión logística usando el volador wabbit en un conjunto de datos muy desequilibrado ), Obtengo un modeloL= -0.00094*age - 0.03857
, cual esmuy diferente.
Los valores predichos obtenidos usando-r
o-p
confirma esto más. Las probabilidades resultantes terminan casi de todos modos, por ejemplo0.4857
para edad = 20, y0.4716
para edad = 80, que está extremadamente apagado.
También he notado esta inconsistencia con conjuntos de datos más grandes. ¿En qué sentido Vowpal Wabbit está llevando a cabo la regresión logística de manera diferente y cómo se interpretan los resultados?