ID3 i C4.5: W jaki sposób „współczynnik zysku” normalizuje „zysk”?

Question

Nov 05, 2012, 01:56 AM

data-mining math statistics computer-science classification

ID3 i C4.5: W jaki sposób „współczynnik zysku” normalizuje „zysk”?

Algorytm ID3 używa miary „Wzmocnienie informacji”.

C4.5 używa miary „Gain Ratio”, która jest dzielona przez Information GainSplitInfo, natomiastSplitInfo jest wysoki dla podziału, w którym rekordy dzielą się równomiernie między różne wyniki, a niskie w przeciwnym razie.

Moje pytanie brzmi:

W jaki sposób pomaga to rozwiązać problem polegający na tym, że zysk informacji jest ukierunkowany na podziały z wieloma wynikami? Nie widzę powodu.SplitInfo nawet nie bierze pod uwagę liczby wyników, a jedynie rozkład rekordów w podziale.

Może być tak, że istnieje niewielka liczba wyników (powiedzmy 2), a zapisy są podzielone równo między te 2 wyniki. W tym wypadku,SplitInfo jest wysoki, współczynnik wzmocnienia jest niski, a podział z niewielką liczbą wyników jest mniej prawdopodobny w przypadku C4.5.

Z drugiej strony może się zdarzyć, że liczba wyników jest niewielka, ale dystrybucja jest daleka. W tym wypadku,SplitInfo jest niski, współczynnik wzmocnienia jest wysoki, a podział z wieloma wynikami jest bardziej prawdopodobny.

czego mi brakuje?