Результаты поиска по запросу "reinforcement-learning"
Непрерывное глубокое Q-Learning с ускорением на основе модели
аюсь заставить агента учить движения мыши, необходимые для наилучшего выполнения какой-либо задачи в условиях обучения подкрепления (то есть сигнал вознаграждения является единственной обратной связью для обучения). Я надеюсь использовать ...
Если вы находитесь в состоянии 1, вы (при условии жадной стратегии) выберете действие 1. Если вы находитесь в состоянии 2, вы выберете действие 2.
ел такие слова как: Политика определяет способ поведения обучающего агента в данный момент времени. Грубо говоря, политика - это сопоставление воспринимаемых состояний окружающей среды с действиями, которые должны быть предприняты в этих ...
Потом в новую камеру
у играть с тренажерными залами OpenAI в записной книжке, с тренажерным залом, встроенным в линию. Вот основной пример: import matplotlib.pyplot as plt import gym from IPython import display %matplotlib inline env = gym.make('CartPole-v0') ...
Поэтому я реализовал код, как вы предложили. Это не сходится на Cartpole, что является неожиданным. Хуже того, если я заставлю актера ничего не изучать, просто критик даже не сойдет с правильной функцией значения статической политики. Я вроде не в курсе, как это отладить ... Я добавил полный код как редактирование к исходному вопросу
у реализовать следующий алгоритм, взятый изэта книга, раздел 13.6 [http://incompleteideas.net/book/bookdraft2017nov5.pdf]: [/imgs/YxBlr.png] Я не понимаю, как реализовать правило обновления в pytorch (правило для w довольно похоже на правило ...
Как нейронные сети используют генетические алгоритмы и обратное распространение для игр?
Я наткнулсяэто интересное видео на YouTube по генетическим алгоритмам.Как вы можете видеть на видео, боты учатся сражаться.Сейчас я некоторое время изучаю не...
Неограниченное увеличение Q-Value, последствие повторяющегося вознаграждения после повторения того же действия в Q-Learning
Я нахожусь в процессе разработки простой реализации Q-Learning над тривиальным приложением, но есть кое-что, что продолжает озадачивать меня. Давайте рассмотрим стандартную формулировку Q-Learning Q(S, A) = Q(S, A) + alpha * [R + MaxQ(S', A') - ...
любые предложения
ий наэтот вопрос Я запустил алгоритм обучения с асинхронным усилением, и мне нужно запустить прогнозирование модели в нескольких потоках, чтобы быстрее получ...