Behandlung unbekannter Werte für die Label-Codierung
Wie kann ich unbekannte Werte für die Labelcodierung in sk-learn verarbeiten? Der Beschriftungscodierer wird nur mit der Ausnahme ausgelöst, dass neue Beschriftungen erkannt wurden.
Was ich will ist dasodierung kategorialer Variabl via one-hot -Encoder. Sk-learn unterstützt dafür jedoch keine Zeichenketten. Also habe ich für jede Spalte einen Label-Encoder verwendet.
Mein Problem ist, dass in meinem Kreuzvalidierungsschritt der Pipeline unbekannte Labels auftauchen. Der grundlegende One-Hot-Encoder hätte die Option, solche Fälle zu ignorieren. An aprioripandas.getDummies /cat.codes
ist nicht ausreichend, da die Pipeline mit realen, frisch eingehenden Daten arbeiten sollte, die möglicherweise auch unbekannte Bezeichnungen enthalten.
äre es möglich ein @ zu benutzCountVectorizer
für diesen Zweck