Qual é a diferença entre erro rel e erro x em uma árvore de decisão rpart?
Eu tenho um quadro de dados puramente categórico do banco de dados de aprendizado de máquina da UCIhttps://archive.ics.uci.edu/ml/datasets/Diabetes+130-US+hospitals+for+years+1999-2008
Estou usando o rpart para formar uma árvore de decisão com base em uma nova categoria sobre se os pacientes retornam antes de 30 dias (uma nova categoria com falha).
Estou usando os seguintes parâmetros para minha árvore de decisão
tree_model <- rpart(Failed ~ race + gender + age+ time_in_hospital+ medical_specialty + num_lab_procedures+ num_procedures+num_medications+number_outpatient+number_emergency+number_inpatient+number_diagnoses+max_glu_serum+ A1Cresult+metformin+glimepiride+glipizide+glyburide+pioglitazone+rosiglitazone+insulin+change,method="class", data=training_data, control=rpart.control(minsplit=2, cp=0.0001, maxdepth=20, xval = 10), parms = list(split = "gini"))
Imprimir os resultados produz:
CP nsplit rel error xerror xstd
1 0.00065883 0 1.00000 1.0000 0.018518
2 0.00057648 8 0.99424 1.0038 0.018549
3 0.00025621 10 0.99308 1.0031 0.018543
4 0.00020000 13 0.99231 1.0031 0.018543
Vejo que o erro relativo está diminuindo à medida que a árvore de decisão se ramifica, mas o xerror sobe - o que eu não entendo, pois eu pensaria que o erro reduziria o número de ramificações e a complexidade da árvore. .
Entendo que o xerror é o mais importante, pois a maioria dos métodos de poda de árvores cortaria a árvore na raiz.
Alguém pode me explicar por que o xerror é o foco da poda da árvore? E quando resumimos qual é o erro do classificador da árvore de decisão, é o erro 0,99231 ou 1,0031?