Выбор размера мини-пакета для регрессии нейронной сети

Я делаю регрессию нейронной сети с 4 функциями. Как определить размер мини-партии для моей проблемы? Я вижу, что люди используют размер партии 100 ~ 1000 для компьютерного зрения с 32 * 32 * 3 функциями для каждого изображения, означает ли это, что я должен использовать размер партии 1 миллион? У меня есть миллиарды данных и десятки гигабайт памяти, поэтому для меня нет строгих требований не делать этого.

Я также заметил, что использование мини-партии размером ~ 1000 делает конвергенцию намного быстрее, чем размер партии в 1 миллион. Я думал, что должно быть наоборот, так как градиент, рассчитанный с большим размером партии, является наиболее представительным для градиента всей выборки? Почему использование мини-пакета ускоряет конвергенцию?

Ответы на вопрос(1)

Ваш ответ на вопрос