Wykresy krzywych uczenia się z pakietem karetki i R
Chciałbym zbadać optymalny kompromis między stronniczością / wariancją dla dostrajania modelu. Używam karetki dla R, która pozwala mi wykreślić metrykę wydajności (AUC, dokładność ...) w stosunku do hiperparametrów modelu (mtry, lambda itd.) I automatycznie wybiera max. Zazwyczaj zwraca to dobry model, ale jeśli chcę kopać dalej i wybrać inny kompromis odchylenia / wariancji, potrzebuję krzywej uczenia się, a nie krzywej wydajności.
Dla uproszczenia załóżmy, że mój model jest przypadkowym lasem, który ma tylko jeden hiperparametr „mtry”
Chciałbym nakreślić krzywe uczenia się dla obu zestawów treningowych i testowych. Coś takiego:
(czerwona krzywa to zestaw testowy)
Na osi y umieściłem metrykę błędu (liczba błędnie sklasyfikowanych przykładów lub coś podobnego); na osi x „mtry” lub alternatywnie rozmiar zestawu treningowego.
Pytania:
Dbał o funkcjonalność iteracyjnie modeli pociągów opartych na fałdach treningowych o różnych rozmiarach? Jeśli muszę kodować ręcznie, jak mogę to zrobić?
Jeśli chcę umieścić hiperparametr na osi x, potrzebuję wszystkich modeli wyszkolonych przez caret :: train, a nie tylko ostatecznego modelu (tego z maksymalną wydajnością uzyskaną po CV). Czy te „odrzucone” modele są nadal dostępne po pociągu?