Существует ли практическое правило о том, как разделить набор данных на наборы обучения и проверки?

Существует ли практическое правило о том, как наилучшим образом разделить данные на обучающие и проверочные наборы? Рекомендуется ли разделение на 50/50? Или есть явные преимущества наличия большего количества обучающих данных относительно проверочных данных (или наоборот)? Или этот выбор в значительной степени зависит от приложения?

Я в основном использовал 80% / 20% данных обучения и проверки, соответственно, но я выбрал это разделение без какой-либо принципиальной причины. Может ли кто-нибудь, кто более опытен в машинном обучении, посоветовать мне?

Ответы на вопрос(7)

Ваш ответ на вопрос