Efecto de --oaa 2 y --loss_function = logistic en Vowpal Wabbit

¿Qué parámetros debo usar en VW para una tarea de clasificación binaria? Por ejemplo, usemosrcv1_small.dat. yopensamiento es mejor usar la función de pérdida logística (o bisagra) y no tiene sentido usar--oaa 2. Sin embargo, los resultados empíricos (con validación progresiva 0/1 pérdida informada en los 4 experimentos) muestran que la mejor combinación es--oaa 2 sin pérdida logística (es decir, con la pérdida al cuadrado predeterminada):

cd vowpal_wabbit/test/train-sets

cat rcv1_small.dat | vw --binary
# average loss = 0.0861

cat rcv1_small.dat | vw --binary --loss_function=logistic
# average loss = 0.0909

cat rcv1_small.dat | sed 's/^-1/2/' | vw --oaa 2
# average loss = 0.0857

cat rcv1_small.dat | sed 's/^-1/2/' | vw --oaa 2 --loss_function=logistic
# average loss = 0.0934

Mi pregunta principal es:Por qué--oaa 2 no da exactamente los mismos resultados que--binary (en la configuración anterior)?

Mis preguntas secundarias son: ¿Por qué la optimización de la pérdida logística no mejora la pérdida 0/1 (en comparación con la optimización de la pérdida cuadrada predeterminada)? ¿Es esto un específico de este conjunto de datos en particular?

Respuestas a la pregunta(1)

Su respuesta a la pregunta