¿Cuál es la diferencia entre error rel y error x en un árbol de decisión rpart?
Tengo un marco de datos puramente categórico de la base de datos de aprendizaje automático UCIhttps://archive.ics.uci.edu/ml/datasets/Diabetes+130-US+hospitals+for+years+1999-2008
Estoy usando rpart para formar un árbol de decisión basado en una nueva categoría sobre si los pacientes regresan antes de los 30 días (una nueva categoría fallida).
Estoy usando los siguientes parámetros para mi árbol de decisión
tree_model <- rpart(Failed ~ race + gender + age+ time_in_hospital+ medical_specialty + num_lab_procedures+ num_procedures+num_medications+number_outpatient+number_emergency+number_inpatient+number_diagnoses+max_glu_serum+ A1Cresult+metformin+glimepiride+glipizide+glyburide+pioglitazone+rosiglitazone+insulin+change,method="class", data=training_data, control=rpart.control(minsplit=2, cp=0.0001, maxdepth=20, xval = 10), parms = list(split = "gini"))
Imprimir los resultados produce:
CP nsplit rel error xerror xstd
1 0.00065883 0 1.00000 1.0000 0.018518
2 0.00057648 8 0.99424 1.0038 0.018549
3 0.00025621 10 0.99308 1.0031 0.018543
4 0.00020000 13 0.99231 1.0031 0.018543
Veo que el error relativo disminuye a medida que el árbol de decisión se ramifica, pero el error aumenta, lo que no entiendo, ya que hubiera pensado que el error reduciría las ramas más complejas y el árbol más complejo. .
Supongo que el xerror es lo más importante, ya que la mayoría de los métodos para la poda de árboles cortarían el árbol en la raíz.
¿Puede alguien explicarme por qué el xerror es en lo que se enfoca al podar el árbol? Y cuando resumimos cuál es el error del clasificador del árbol de decisión, ¿es el error 0.99231 o 1.0031?