Manipulação de valores desconhecidos para codificação de etiquetas
Como lidar com valores desconhecidos para codificação de etiquetas no sk-learn? O codificador de etiquetas explodirá apenas com a exceção de que novas etiquetas foram detectadas.
O que eu quero é ocodificação de variáveis categóricas através daquente-codificador. No entanto, o sk-learn não suporta strings para isso. Então, eu usei um codificador de etiqueta em cada coluna.
Meu problema é que, na etapa de validação cruzada do pipeline, os rótulos desconhecidos aparecem. O codificador one-hot-básico teria a opção de ignorar esses casos. An aprioripandas.getDummies /cat.codes
não é suficiente, pois o pipeline deve funcionar com dados novos e reais da vida real que também podem conter rótulos desconhecidos.
Seria possível usar umCountVectorizer
para esse fim?