Weiß jemand, wie man einen AUC / Roc-Bereich basierend auf der Vorhersage erzeugt?

Ich kenne den AUC / ROC-Bereich (http://weka.wikispaces.com/Area+under+the+curve) in weka basiert auf der e Mann Whitney-Statistik (http://en.wikipedia.org/wiki/Mann-Whitney_U)

Mein Zweifel ist jedoch, dass, wenn ich 10 markierte Instanzen (J oder N, binäres Zielattribut) habe, indem ich einen Algorithmus (d. H. J48) auf den Datensatz anwende, auf diesen 10 Instanzen 10 vorhergesagte Markierungen existieren. Was genau soll ich dann verwenden, um AUC_Y, AUC_N und AUC_Avg zu berechnen? Verwenden Sie die Rangbezeichnung Y und N der Vorhersage oder die tatsächliche Bezeichnung (Y 'und N')? Oder muss ich die TP-Rate und die FP-Rate berechnen?

Kann mir jemand ein kleines Beispiel geben und mir zeigen, mit welchen Daten ich die AUC basierend auf dem statistischen Ansatz von Mann Whitney berechnen soll? Danke im Voraus.

Beispieldaten:

inst#    actual predicted  error   PrY     PrN
1        1:y        1:y          *0.973   0.027
2        1:y        1:y          *0.999   0.001
3        2:n        1:y      +   *0.568   0.432
4        2:n        2:n           0.382  *0.618
5        1:y        2:n      +    0.421  *0.579
6        2:n        2:n           0.146  *0.854
7        1:y        1:y          *1       0    
8        1:y        1:y          *0.999   0.001
9        2:n        2:n           0.11   *0.89 
10       1:y        2:n      +    0.377  *0.623

Antworten auf die Frage(2)

Ihre Antwort auf die Frage