O tempo de treinamento do classificador SVM SciKit de uma classe aumenta exponencialmente com o tamanho dos dados de treinamento

Question

Jan 18, 2017, 10:36 AM

O tempo de treinamento do classificador SVM SciKit de uma classe aumenta exponencialmente com o tamanho dos dados de treinamento

Estou usando o classificador Python SciKit OneClass SVM para detectar discrepâncias em linhas de texto. O texto é convertido em recursos numéricos primeiro usando um conjunto de palavras e TF-IDF.

Ao treinar (ajustar) o classificador em execução no meu computador, o tempo parece aumentar exponencialmente com o número de itens no conjunto de treinamento:

Número de itens nos dados de treinamento e no tempo de treinamento: 10K: 1 segundo, 15K: 2 segundos, 20K: 8 seg, 25k: 12 seg, 30K: 16 seg, 45K: 44 seg.

Há algo que eu possa fazer para reduzir o tempo necessário para o treinamento e evitar que isso se torne muito longo quando o tamanho dos dados do treinamento aumentar para algumas centenas de milhares de itens?