ID3 и C4.5: как «коэффициент усиления» нормализует «коэффициент усиления»?

Алгоритм ID3 используетИнформационный Прибыль " измерения.

C4.5 использует "Коэффициент усиления " мера, которая представляет собой информационное усиление, деленное наSplitInfo, в то время какSplitInfo высокий для разделения, где записи делятся равномерно между различными результатами и низким в противном случае.

Мой вопрос:

Как это помогает решить проблему смещения информации в сторону расщепления со многими результатами? Я могу'не вижу причины.SplitInfo Безразлично»t даже принимать во внимание количество результатов, только распределение записей в разбивке.

Вполне может быть, что количество результатов небольшое (скажем, 2), и записи равномерно распределены между этими двумя результатами. В таком случае,SplitInfo высокий, коэффициент усиления низкий, и C4.5 реже выберет сплит с несколькими результатами.

С другой стороны, может быть, что есть небольшое количество результатов, но распределение далеко не равномерно. В таком случае,SplitInfo низкий, коэффициент усиления высокий, и более вероятно, что будет выбран сплит со многими результатами.

Что мне не хватает?

Ответы на вопрос(1)

Ваш ответ на вопрос