Was ist der Unterschied zwischen rel error und x error in einem Teilentscheidungsbaum?
ch habe einen rein kategorialen Datenrahmen aus der UCI-Datenbank für maschinelles Lernehttps: //archive.ics.uci.edu/ml/datasets/Diabetes+130-US+hospitals+for+years+1999-200
Ich benutze rpart, um einen Entscheidungsbaum zu erstellen, der auf einer neuen Kategorie basier
Ich verwende die folgenden Parameter für meinen Entscheidungsbaum
tree_model <- rpart(Failed ~ race + gender + age+ time_in_hospital+ medical_specialty + num_lab_procedures+ num_procedures+num_medications+number_outpatient+number_emergency+number_inpatient+number_diagnoses+max_glu_serum+ A1Cresult+metformin+glimepiride+glipizide+glyburide+pioglitazone+rosiglitazone+insulin+change,method="class", data=training_data, control=rpart.control(minsplit=2, cp=0.0001, maxdepth=20, xval = 10), parms = list(split = "gini"))
Drucken der Ergebnisse ergibt:
CP nsplit rel error xerror xstd
1 0.00065883 0 1.00000 1.0000 0.018518
2 0.00057648 8 0.99424 1.0038 0.018549
3 0.00025621 10 0.99308 1.0031 0.018543
4 0.00020000 13 0.99231 1.0031 0.018543
Ich sehe, dass der relative Fehler abnimmt, wenn der Entscheidungsbaum sich verzweigt, aber der Fehler steigt - was ich nicht verstehe, da ich gedacht hätte, dass sich der Fehler verringern würde, je mehr Zweige es gibt und je komplexer der Baum ist ist.
ch gehe davon aus, dass der Fehler am wichtigsten ist, da die meisten Methoden zum Beschneiden von Bäumen den Baum an der Wurzel schneiden würde
Kann mir jemand erklären, warum der Fehler ist, worauf es beim Beschneiden des Baums ankommt? Und wenn wir den Fehler des Entscheidungsbaumklassifikators zusammenfassen, ist der Fehler 0,99231 oder 1,0031?