Обработка неизвестных значений для кодирования меток

Как я могу обработать неизвестные значения для кодирования меток в sk-learn? Кодировщик этикеток будет взорван только за исключением того, что были обнаружены новые этикетки.

Что я хочу этокодирование категориальных переменных с помощьюодин горячий-encoder. Тем не менее, sk-learn не поддерживает строки для этого. Поэтому я использовал кодировщик меток в каждом столбце.

Моя проблема в том, что на этапе перекрестной проверки конвейера появляются неизвестные метки. Базовый однокорпусный кодер будет иметь возможность игнорировать такие случаи. Априориpandas.getDummies /cat.codes этого недостаточно, поскольку конвейер должен работать с реальными свежими входящими данными, которые также могут содержать неизвестные метки.

Можно ли будет использоватьCountVectorizer для этого?

Ответы на вопрос(1)

Ваш ответ на вопрос