Was ist der Unterschied zwischen rel error und x error in einem Teilentscheidungsbaum?

Question

Mar 22, 2015, 05:58 PM

Was ist der Unterschied zwischen rel error und x error in einem Teilentscheidungsbaum?

ch habe einen rein kategorialen Datenrahmen aus der UCI-Datenbank für maschinelles Lernehttps: //archive.ics.uci.edu/ml/datasets/Diabetes+130-US+hospitals+for+years+1999-200

Ich benutze rpart, um einen Entscheidungsbaum zu erstellen, der auf einer neuen Kategorie basier

Ich verwende die folgenden Parameter für meinen Entscheidungsbaum

    tree_model <- rpart(Failed ~ race + gender + age+ time_in_hospital+ medical_specialty + num_lab_procedures+ num_procedures+num_medications+number_outpatient+number_emergency+number_inpatient+number_diagnoses+max_glu_serum+ A1Cresult+metformin+glimepiride+glipizide+glyburide+pioglitazone+rosiglitazone+insulin+change,method="class", data=training_data, control=rpart.control(minsplit=2, cp=0.0001, maxdepth=20, xval = 10), parms = list(split = "gini"))

Drucken der Ergebnisse ergibt:

       CP     nsplit rel error  xerror     xstd
1 0.00065883      0   1.00000  1.0000   0.018518
2 0.00057648      8   0.99424  1.0038   0.018549
3 0.00025621     10   0.99308  1.0031   0.018543
4 0.00020000     13   0.99231  1.0031   0.018543

Ich sehe, dass der relative Fehler abnimmt, wenn der Entscheidungsbaum sich verzweigt, aber der Fehler steigt - was ich nicht verstehe, da ich gedacht hätte, dass sich der Fehler verringern würde, je mehr Zweige es gibt und je komplexer der Baum ist ist.

ch gehe davon aus, dass der Fehler am wichtigsten ist, da die meisten Methoden zum Beschneiden von Bäumen den Baum an der Wurzel schneiden würde

Kann mir jemand erklären, warum der Fehler ist, worauf es beim Beschneiden des Baums ankommt? Und wenn wir den Fehler des Entscheidungsbaumklassifikators zusammenfassen, ist der Fehler 0,99231 oder 1,0031?