ID3 e C4.5: Como a "taxa de ganho" normaliza o "ganho"?

Question

Nov 05, 2012, 01:56 AM

statistics classification data-mining math computer-science

ID3 e C4.5: Como a "taxa de ganho" normaliza o "ganho"?

O algoritmo ID3 usa a medida "Information Gain".

O C4.5 usa a medida "Gain Ratio", que é o ganho de informação dividido porSplitInfo, enquanto queSplitInfo é alto para uma divisão em que os registros são divididos igualmente entre resultados diferentes e baixos, caso contrário.

Minha pergunta é:

Como isso ajuda a resolver o problema de que o ganho de informação é influenciado por divisões com muitos resultados? Não consigo ver o motivo.SplitInfo não leva em conta o número de resultados, apenas a distribuição de registros na divisão.

Pode muito bem ser que haja um baixo número de resultados (digamos 2) e os registros sejam divididos igualmente entre esses dois resultados. Nesse caso,SplitInfo é alta, a taxa de ganho é baixa e uma divisão com poucos resultados é menos provável de ser escolhida por C4.5.

Por outro lado, pode ser que haja um baixo número de resultados, mas a distribuição está longe de ser igual. Nesse caso,SplitInfo é baixa, a taxa de ganho é alta e é mais provável que uma divisão com muitos resultados seja escolhida.

o que estou perdendo?