Manipulação de valores desconhecidos para codificação de etiquetas

Question

Oct 29, 2016, 06:32 PM

scikit-learn pandas one-hot-encoding python dummy-variable

Manipulação de valores desconhecidos para codificação de etiquetas

Como lidar com valores desconhecidos para codificação de etiquetas no sk-learn? O codificador de etiquetas explodirá apenas com a exceção de que novas etiquetas foram detectadas.

O que eu quero é ocodificação de variáveis categóricas através daquente-codificador. No entanto, o sk-learn não suporta strings para isso. Então, eu usei um codificador de etiqueta em cada coluna.

Meu problema é que, na etapa de validação cruzada do pipeline, os rótulos desconhecidos aparecem. O codificador one-hot-básico teria a opção de ignorar esses casos. An aprioripandas.getDummies /cat.codes não é suficiente, pois o pipeline deve funcionar com dados novos e reais da vida real que também podem conter rótulos desconhecidos.

Seria possível usar umCountVectorizer para esse fim?