Как бороться с отсутствующими значениями атрибутов в дереве решений C4.5 (J48)?
Каков наилучший способ обработки пропущенных значений атрибутов объектов с помощью дерева решений Weka C4.5 (J48)? Проблема пропущенных значений возникает во время обучения и классификации.
Если значения отсутствуют в обучающих экземплярах, правильно ли я полагаю, что ставлю «?» значение для функции?
Предположим, что я могу успешно построить дерево решений, а затем создать свой собственный код дерева в C ++ или Java из древовидной структуры Weka. Во время классификации, если я пытаюсь классифицировать новый экземпляр, какое значение я должен придать объектам, у которых отсутствуют значения? Как бы я спустил дерево за узлом принятия решения, для которого у меня есть неизвестное значение?
Будет ли лучше использовать Наивный Байес для обработки пропущенных значений? Я бы просто назначил им очень малую ненулевую вероятность, верно?