¿Corrección de la regresión logística en Vowpal Wabbit?

He empezado a usarVowpal Wabbit para la regresión logística, sin embargo, no puedo reproducir los resultados que da. Quizás haya algo de "magia" indocumentada, pero ¿alguien ha podido replicar / verificar / verificar los cálculos para la regresión logística?

Por ejemplo, con los datos simples a continuación, nuestro objetivo es modelar la formaage predicelabel. Es obvio que existe una fuerte relación, ya que cuando la edad aumenta, la probabilidad de observar 1 aumenta.

Como prueba de unidad simple, utilicé las 12 filas de datos a continuación:

age label
20  0
25  0
30  0
35  0
40  0
50  0
60  1
65  0
70  1
75  1
77  1
80  1

Ahora, realizando una regresión logística en este conjunto de datos, utilizandoR , SPSS o incluso a mano, produce un modelo que se parece aL = 0.2294*age - 14.08. Entonces, si sustituyo la edad y uso la transformación logit prob = 1 / (1 + EXP (-L)) puedo obtener las probabilidades predichas que van desde0.0001 para la primera fila, a0.9864 para la última fila, como se esperaba razonablemente.

Si conecto los mismos datos enVowpal Wabbit,

-1 'P1 |f age:20
-1 'P2 |f age:25
-1 'P3 |f age:30
-1 'P4 |f age:35
-1 'P5 |f age:40
-1 'P6 |f age:50
1 'P7 |f age:60
-1 'P8 |f age:65
1 'P9 |f age:70
1 'P10 |f age:75
1 'P11 |f age:77
1 'P12 |f age:80

Y luego realice una regresión logística usando

vw -d data.txt -f demo_model.vw --loss_function logistic --invert_hash aaa

(línea de comando consistente conCómo realizar una regresión logística usando el volador wabbit en un conjunto de datos muy desequilibrado ), Obtengo un modeloL= -0.00094*age - 0.03857 , cual esmuy diferente.

Los valores predichos obtenidos usando-r o-p confirma esto más. Las probabilidades resultantes terminan casi de todos modos, por ejemplo0.4857 para edad = 20, y0.4716 para edad = 80, que está extremadamente apagado.

También he notado esta inconsistencia con conjuntos de datos más grandes. ¿En qué sentido Vowpal Wabbit está llevando a cabo la regresión logística de manera diferente y cómo se interpretan los resultados?

Respuestas a la pregunta(1)

Su respuesta a la pregunta