Trazar curvas de aprendizaje con paquete de caret y R

Question

Dec 04, 2013, 09:52 AM

machine-learning r plot supervised-learning

Trazar curvas de aprendizaje con paquete de caret y R

Me gustaría estudiar la compensación óptima entre sesgo / varianza para el ajuste del modelo. Estoy usando caret for R, que me permite trazar la métrica de rendimiento (AUC, precisión ...) contra los hiperparámetros del modelo (mtry, lambda, etc.) y elige automáticamente el máximo. Esto generalmente devuelve un buen modelo, pero si quiero seguir investigando y elegir una compensación de sesgo / varianza diferente, necesito una curva de aprendizaje, no una curva de rendimiento.

En aras de la simplicidad, digamos que mi modelo es un bosque aleatorio, que tiene solo un hiperparámetro 'mtry'

Me gustaría trazar las curvas de aprendizaje de los conjuntos de entrenamiento y de prueba. Algo como esto:

(curva roja es el conjunto de prueba)

En el eje y pongo una métrica de error (número de ejemplos mal clasificados o algo así); en el eje x 'mtry' o alternativamente el tamaño del conjunto de entrenamiento.

Preguntas:

¿Ha adquirido la funcionalidad para entrenar iterativamente modelos basados en conjuntos de entrenamiento de diferentes tamaños? Si tengo que codificar a mano, ¿cómo puedo hacer eso?

Si quiero poner el hiperparámetro en el eje x, necesito todos los modelos entrenados por caret :: train, no solo el modelo final (el que obtuvo el máximo rendimiento después del CV). ¿Están estos modelos "descartados" todavía disponibles después del tren?