Wie gehe ich mit fehlenden Attributwerten im Entscheidungsbaum von C4.5 (J48) um?

Was ist der beste Weg, um mit fehlenden Merkmalattributwerten im Entscheidungsbaum von Weka C4.5 (J48) umzugehen? Das Problem fehlender Werte tritt sowohl beim Training als auch bei der Klassifizierung auf.

Wenn in den Trainingsinstanzen Werte fehlen, gehe ich zu Recht davon aus, dass ich ein '?' Wert für die Funktion?

Angenommen, ich kann den Entscheidungsbaum erfolgreich erstellen und dann meinen eigenen Baumcode in C ++ oder Java aus der Weka-Baumstruktur erstellen. Welchen Wert lege ich während der Klassifizierungszeit für Features mit fehlenden Werten fest, wenn ich versuche, eine neue Instanz zu klassifizieren? Wie würde ich den Baum hinter einem Entscheidungsknoten herabfahren, für den ich einen unbekannten Wert habe?

Wäre die Verwendung von Naive Bayes besser für den Umgang mit fehlenden Werten? Ich würde ihnen nur eine sehr kleine Wahrscheinlichkeit ungleich Null zuweisen, oder?

Antworten auf die Frage(2)

Ihre Antwort auf die Frage