ID3 и C4.5: как «коэффициент усиления» нормализует «коэффициент усиления»?
Алгоритм ID3 используетИнформационный Прибыль " измерения.
C4.5 использует "Коэффициент усиления " мера, которая представляет собой информационное усиление, деленное наSplitInfo
, в то время какSplitInfo
высокий для разделения, где записи делятся равномерно между различными результатами и низким в противном случае.
Мой вопрос:
Как это помогает решить проблему смещения информации в сторону расщепления со многими результатами? Я могу'не вижу причины.SplitInfo
Безразлично»t даже принимать во внимание количество результатов, только распределение записей в разбивке.
Вполне может быть, что количество результатов небольшое (скажем, 2), и записи равномерно распределены между этими двумя результатами. В таком случае,SplitInfo
высокий, коэффициент усиления низкий, и C4.5 реже выберет сплит с несколькими результатами.
С другой стороны, может быть, что есть небольшое количество результатов, но распределение далеко не равномерно. В таком случае,SplitInfo
низкий, коэффициент усиления высокий, и более вероятно, что будет выбран сплит со многими результатами.
Что мне не хватает?