ID3 e C4.5: Como a "taxa de ganho" normaliza o "ganho"?
O algoritmo ID3 usa a medida "Information Gain".
O C4.5 usa a medida "Gain Ratio", que é o ganho de informação dividido porSplitInfo
, enquanto queSplitInfo
é alto para uma divisão em que os registros são divididos igualmente entre resultados diferentes e baixos, caso contrário.
Minha pergunta é:
Como isso ajuda a resolver o problema de que o ganho de informação é influenciado por divisões com muitos resultados? Não consigo ver o motivo.SplitInfo
não leva em conta o número de resultados, apenas a distribuição de registros na divisão.
Pode muito bem ser que haja um baixo número de resultados (digamos 2) e os registros sejam divididos igualmente entre esses dois resultados. Nesse caso,SplitInfo
é alta, a taxa de ganho é baixa e uma divisão com poucos resultados é menos provável de ser escolhida por C4.5.
Por outro lado, pode ser que haja um baixo número de resultados, mas a distribuição está longe de ser igual. Nesse caso,SplitInfo
é baixa, a taxa de ganho é alta e é mais provável que uma divisão com muitos resultados seja escolhida.
o que estou perdendo?