Результаты поиска по запросу "q-learning"

3 ответа

Неограниченное увеличение Q-Value, последствие повторяющегося вознаграждения после повторения того же действия в Q-Learning

5 ответов

Непрерывное глубокое Q-Learning с ускорением на основе модели

аюсь заставить агента учить движения мыши, необходимые для наилучшего выполнения какой-либо задачи в условиях обучения подкрепления (то есть сигнал вознаграждения является единственной обратной связью для обучения). Я надеюсь использовать ...

3 ответа

Неограниченное увеличение Q-Value, последствие повторяющегося вознаграждения после повторения того же действия в Q-Learning

Я нахожусь в процессе разработки простой реализации Q-Learning над тривиальным приложением, но есть кое-что, что продолжает озадачивать меня. Давайте рассмотрим стандартную формулировку Q-Learning Q(S, A) = Q(S, A) + alpha * [R + MaxQ(S', A') - ...

ТОП публикаций