O tempo de treinamento do classificador SVM SciKit de uma classe aumenta exponencialmente com o tamanho dos dados de treinamento
Estou usando o classificador Python SciKit OneClass SVM para detectar discrepâncias em linhas de texto. O texto é convertido em recursos numéricos primeiro usando um conjunto de palavras e TF-IDF.
Ao treinar (ajustar) o classificador em execução no meu computador, o tempo parece aumentar exponencialmente com o número de itens no conjunto de treinamento:
Número de itens nos dados de treinamento e no tempo de treinamento: 10K: 1 segundo, 15K: 2 segundos, 20K: 8 seg, 25k: 12 seg, 30K: 16 seg, 45K: 44 seg.
Há algo que eu possa fazer para reduzir o tempo necessário para o treinamento e evitar que isso se torne muito longo quando o tamanho dos dados do treinamento aumentar para algumas centenas de milhares de itens?