Результаты поиска по запросу "reinforcement-learning"

5 ответов

Непрерывное глубокое Q-Learning с ускорением на основе модели

аюсь заставить агента учить движения мыши, необходимые для наилучшего выполнения какой-либо задачи в условиях обучения подкрепления (то есть сигнал вознаграждения является единственной обратной связью для обучения). Я надеюсь использовать ...

3 ответа

Если вы находитесь в состоянии 1, вы (при условии жадной стратегии) ​​выберете действие 1. Если вы находитесь в состоянии 2, вы выберете действие 2.

ел такие слова как: Политика определяет способ поведения обучающего агента в данный момент времени. Грубо говоря, политика - это сопоставление воспринимаемых состояний окружающей среды с действиями, которые должны быть предприняты в этих ...

1 ответ

Потом в новую камеру

у играть с тренажерными залами OpenAI в записной книжке, с тренажерным залом, встроенным в линию. Вот основной пример: import matplotlib.pyplot as plt import gym from IPython import display %matplotlib inline env = gym.make('CartPole-v0') ...

ТОП публикаций

3 ответа

Неограниченное увеличение Q-Value, последствие повторяющегося вознаграждения после повторения того же действия в Q-Learning

1 ответ

Марковская модель процесса принятия решений в Java

1 ответ

Поэтому я реализовал код, как вы предложили. Это не сходится на Cartpole, что является неожиданным. Хуже того, если я заставлю актера ничего не изучать, просто критик даже не сойдет с правильной функцией значения статической политики. Я вроде не в курсе, как это отладить ... Я добавил полный код как редактирование к исходному вопросу

у реализовать следующий алгоритм, взятый изэта книга, раздел 13.6 [http://incompleteideas.net/book/bookdraft2017nov5.pdf]: [/imgs/YxBlr.png] Я не понимаю, как реализовать правило обновления в pytorch (правило для w довольно похоже на правило ...

0 ответов

Как нейронные сети используют генетические алгоритмы и обратное распространение для игр?

Я наткнулсяэто интересное видео на YouTube по генетическим алгоритмам.Как вы можете видеть на видео, боты учатся сражаться.Сейчас я некоторое время изучаю не...

3 ответа

Неограниченное увеличение Q-Value, последствие повторяющегося вознаграждения после повторения того же действия в Q-Learning

Я нахожусь в процессе разработки простой реализации Q-Learning над тривиальным приложением, но есть кое-что, что продолжает озадачивать меня. Давайте рассмотрим стандартную формулировку Q-Learning Q(S, A) = Q(S, A) + alpha * [R + MaxQ(S', A') - ...

0 ответов

 любые предложения

ий наэтот вопрос Я запустил алгоритм обучения с асинхронным усилением, и мне нужно запустить прогнозирование модели в нескольких потоках, чтобы быстрее получ...