Spark, ML, StringIndexer: Umgang mit unsichtbaren Labels

Question

Jan 08, 2016, 05:20 PM

Spark, ML, StringIndexer: Umgang mit unsichtbaren Labels

ein Ziel ist es, einen Multicalss-Klassifikator zu erstelle

Ich habe eine Pipeline für die Feature-Extraktion erstellt und sie enthält als ersten Schritt einen StringIndexer-Transformator, um jeden Klassennamen einer Bezeichnung zuzuordnen. Diese Bezeichnung wird im Klassifizierertrainingsschritt verwendet.

Die Pipeline ist mit dem Trainingsset ausgestattet.

Der Testsatz muss von der angepassten Pipeline verarbeitet werden, um dieselben Merkmalsvektoren zu extrahieren.

Wissend, dass meine Test-Set-Dateien dieselbe Struktur wie das Training-Set haben. Das mögliche Szenario besteht darin, dass im Testset ein unsichtbarer Klassenname angezeigt wird. In diesem Fall kann der StringIndexer die Bezeichnung nicht finden, und es wird eine Ausnahme ausgelöst.

Gibt es eine Lösung für diesen Fall? oder wie können wir das verhindern?