Помогите понять деревья перекрестной проверки и принятия решений

Я читал о деревьях решений и перекрестной проверке, и я понимаю обе концепции. Однако у меня возникли проблемы с пониманием перекрестной проверки, поскольку она относится к деревьям принятия решений. По существу, перекрестная проверка позволяет вам переключаться между обучением и тестированием, когда ваш набор данных является относительно небольшим, чтобы максимизировать вашу оценку ошибки. Очень простой алгоритм выглядит примерно так:

Определите количество желаемых сгибов (k)Разделите ваш набор данных на k сгибовИспользуйте k-1 сгибы для тренировочного набора, чтобы построить дерево.Используйте набор тестирования для оценки статистики об ошибке в вашем дереве.Сохранить результаты на потомПовторите шаги 3-6 для k раз, исключая другую складку для вашего тестового набора.Усредните ошибки по вашим итерациям, чтобы предсказать общую ошибку

Проблема, которую я не могу понять, состоит в том, что в конце у вас будет k деревьев решений, которые могут немного отличаться, потому что они могут не разделяться одинаково и т. Д. Какое дерево вы выбираете? У меня была одна идея - выбрать одну с минимальными ошибками (хотя это не делает ее оптимальной, просто она показала наилучшие результаты в тот раз, когда ей дали - может быть, использование стратификации поможет, но все, что я прочитал, говорит, что это только немного помогает ).

Как я понимаю, перекрестная проверка заключается в том, чтобы вычислять статистику узлов, которая впоследствии может быть использована для сокращения. Таким образом, каждый узел дерева будет иметь статистику, рассчитанную для него на основании заданного ему набора тестов. Что важно, это в статистике узлов, но если вы усредняете свою ошибку. Как вы объединяете эти характеристики в каждом узле между k деревьями, когда каждое дерево может варьироваться в зависимости от того, что они хотят разделить и т. Д.

Какой смысл вычислять общую ошибку на каждой итерации? Это не то, что можно использовать во время обрезки.

Любая помощь с этой маленькой морщинкой будет высоко ценится.

Ответы на вопрос(5)

Ваш ответ на вопрос