ID3 и C4.5: как «коэффициент усиления» нормализует «коэффициент усиления»?

Алгоритм ID3 использует меру «информационного усиления».

C4.5 использует показатель «Коэффициент усиления», который представляет собой Информационный коэффициент, деленный наSplitInfo, в то время какSplitInfo высокий для разделения, где записи делятся равномерно между различными результатами и низким в противном случае.

Мой вопрос:

Как это помогает решить проблему смещения информации в сторону расщепления со многими результатами? Я не вижу причины.SplitInfo даже не учитывает количество результатов, просто распределение записей в разбивке.

Вполне может быть, что количество результатов небольшое (скажем, 2), и записи равномерно распределены между этими двумя результатами. В этом случае,SplitInfo высокий, коэффициент усиления низкий, и C4.5 реже выберет сплит с несколькими результатами.

С другой стороны, может быть, что есть небольшое количество результатов, но распределение далеко не равномерно. В этом случае,SplitInfo низкий, коэффициент усиления высокий, и более вероятно, что будет выбран сплит со многими результатами.

Что мне не хватает?

Ответы на вопрос(1)

Ваш ответ на вопрос