Непрерывное глубокое Q-Learning с ускорением на основе модели

аюсь заставить агента учить движения мыши, необходимые для наилучшего выполнения какой-либо задачи в условиях обучения подкрепления (то есть сигнал вознаграждения является единственной обратной связью для обучения).

Я надеюсь использовать технику Q-обучения, но пока я нашелспособ распространить этот метод на непрерывные пространства состоянийЯ не могу понять, как решить проблему с пространством непрерывного действия.

Я мог бы просто заставить все движения мыши быть определенной величины и только в определенном количестве различных направлений, но любой разумный способ сделать действия дискретными привел бы к огромному пространству действия. Поскольку стандартное Q-обучение требует, чтобы агент оценилвсе возможные действия, такое приближение не решает проблему в практическом смысле.

Ответы на вопрос(5)

Ваш ответ на вопрос