Qual é a diferença entre erro rel e erro x em uma árvore de decisão rpart?

Question

Mar 22, 2015, 05:58 PM

Qual é a diferença entre erro rel e erro x em uma árvore de decisão rpart?

Eu tenho um quadro de dados puramente categórico do banco de dados de aprendizado de máquina da UCIhttps://archive.ics.uci.edu/ml/datasets/Diabetes+130-US+hospitals+for+years+1999-2008

Estou usando o rpart para formar uma árvore de decisão com base em uma nova categoria sobre se os pacientes retornam antes de 30 dias (uma nova categoria com falha).

Estou usando os seguintes parâmetros para minha árvore de decisão

    tree_model <- rpart(Failed ~ race + gender + age+ time_in_hospital+ medical_specialty + num_lab_procedures+ num_procedures+num_medications+number_outpatient+number_emergency+number_inpatient+number_diagnoses+max_glu_serum+ A1Cresult+metformin+glimepiride+glipizide+glyburide+pioglitazone+rosiglitazone+insulin+change,method="class", data=training_data, control=rpart.control(minsplit=2, cp=0.0001, maxdepth=20, xval = 10), parms = list(split = "gini"))

Imprimir os resultados produz:

       CP     nsplit rel error  xerror     xstd
1 0.00065883      0   1.00000  1.0000   0.018518
2 0.00057648      8   0.99424  1.0038   0.018549
3 0.00025621     10   0.99308  1.0031   0.018543
4 0.00020000     13   0.99231  1.0031   0.018543

Vejo que o erro relativo está diminuindo à medida que a árvore de decisão se ramifica, mas o xerror sobe - o que eu não entendo, pois eu pensaria que o erro reduziria o número de ramificações e a complexidade da árvore. .

Entendo que o xerror é o mais importante, pois a maioria dos métodos de poda de árvores cortaria a árvore na raiz.

Alguém pode me explicar por que o xerror é o foco da poda da árvore? E quando resumimos qual é o erro do classificador da árvore de decisão, é o erro 0,99231 ou 1,0031?