Behandlung unbekannter Werte für die Label-Codierung

Question

Oct 29, 2016, 06:32 PM

pandas one-hot-encoding python dummy-variable scikit-learn

Behandlung unbekannter Werte für die Label-Codierung

Wie kann ich unbekannte Werte für die Labelcodierung in sk-learn verarbeiten? Der Beschriftungscodierer wird nur mit der Ausnahme ausgelöst, dass neue Beschriftungen erkannt wurden.

Was ich will ist dasodierung kategorialer Variabl via one-hot -Encoder. Sk-learn unterstützt dafür jedoch keine Zeichenketten. Also habe ich für jede Spalte einen Label-Encoder verwendet.

Mein Problem ist, dass in meinem Kreuzvalidierungsschritt der Pipeline unbekannte Labels auftauchen. Der grundlegende One-Hot-Encoder hätte die Option, solche Fälle zu ignorieren. An aprioripandas.getDummies /cat.codes ist nicht ausreichend, da die Pipeline mit realen, frisch eingehenden Daten arbeiten sollte, die möglicherweise auch unbekannte Bezeichnungen enthalten.

äre es möglich ein @ zu benutzCountVectorizer für diesen Zweck