Spark, ML, StringIndexer: manipulação de etiquetas invisíveis
Meu objetivo é construir um classificador multicalss.
Criei um pipeline para extração de recursos e inclui, como primeira etapa, um transformador StringIndexer para mapear cada nome de classe para um rótulo, esse rótulo será usado na etapa de treinamento do classificador.
O oleoduto é montado no conjunto de treinamento.
O conjunto de teste deve ser processado pelo pipeline instalado para extrair os mesmos vetores de recursos.
Sabendo que meus arquivos do conjunto de testes têm a mesma estrutura do conjunto de treinamento. O cenário possível aqui é enfrentar um nome de classe invisível no conjunto de teste; nesse caso, o StringIndexer falhará ao encontrar o rótulo e uma exceção será gerada.
Existe uma solução para este caso? ou como podemos evitar que isso aconteça?