ID3 и C4.5: как «коэффициент усиления» нормализует «коэффициент усиления»?
Алгоритм ID3 использует меру «информационного усиления».
C4.5 использует показатель «Коэффициент усиления», который представляет собой Информационный коэффициент, деленный наSplitInfo
, в то время какSplitInfo
высокий для разделения, где записи делятся равномерно между различными результатами и низким в противном случае.
Мой вопрос:
Как это помогает решить проблему смещения информации в сторону расщепления со многими результатами? Я не вижу причины.SplitInfo
даже не учитывает количество результатов, просто распределение записей в разбивке.
Вполне может быть, что количество результатов небольшое (скажем, 2), и записи равномерно распределены между этими двумя результатами. В этом случае,SplitInfo
высокий, коэффициент усиления низкий, и C4.5 реже выберет сплит с несколькими результатами.
С другой стороны, может быть, что есть небольшое количество результатов, но распределение далеко не равномерно. В этом случае,SplitInfo
низкий, коэффициент усиления высокий, и более вероятно, что будет выбран сплит со многими результатами.
Что мне не хватает?