Spark, ML, StringIndexer: manipulação de etiquetas invisíveis

Question

Jan 08, 2016, 05:20 PM

Spark, ML, StringIndexer: manipulação de etiquetas invisíveis

Meu objetivo é construir um classificador multicalss.

Criei um pipeline para extração de recursos e inclui, como primeira etapa, um transformador StringIndexer para mapear cada nome de classe para um rótulo, esse rótulo será usado na etapa de treinamento do classificador.

O oleoduto é montado no conjunto de treinamento.

O conjunto de teste deve ser processado pelo pipeline instalado para extrair os mesmos vetores de recursos.

Sabendo que meus arquivos do conjunto de testes têm a mesma estrutura do conjunto de treinamento. O cenário possível aqui é enfrentar um nome de classe invisível no conjunto de teste; nesse caso, o StringIndexer falhará ao encontrar o rótulo e uma exceção será gerada.

Existe uma solução para este caso? ou como podemos evitar que isso aconteça?