Как бороться с отсутствующими значениями атрибутов в дереве решений C4.5 (J48)?

Каков наилучший способ обработки пропущенных значений атрибутов объектов с помощью дерева решений Weka C4.5 (J48)? Проблема пропущенных значений возникает во время обучения и классификации.

Если значения отсутствуют в обучающих экземплярах, правильно ли я полагаю, что ставлю «?» значение для функции?

Предположим, что я могу успешно построить дерево решений, а затем создать свой собственный код дерева в C ++ или Java из древовидной структуры Weka. Во время классификации, если я пытаюсь классифицировать новый экземпляр, какое значение я должен придать объектам, у которых отсутствуют значения? Как бы я спустил дерево за узлом принятия решения, для которого у меня есть неизвестное значение?

Будет ли лучше использовать Наивный Байес для обработки пропущенных значений? Я бы просто назначил им очень малую ненулевую вероятность, верно?

Ответы на вопрос(2)

Ваш ответ на вопрос