Неограниченное увеличение Q-Value, последствие повторяющегося вознаграждения после повторения того же действия в Q-Learning

м в процессе разработки простой реализации Q-Learning над тривиальным приложением, но естьЧто-то, что продолжает меня озадачивать.

Позволять'Рассмотрим стандартную формулировку Q-Learning

Q(S, A) = Q(S, A) + alpha * [R +  MaxQ(S', A') - Q(S, A)]

Позволять'Предположим, что естьэто состояниеK у этого есть два возможных действия, оба награждают наши агентские вознагражденияR а такжеR' отA а также .A'

Если мы будем следовать почти полностью жадным подходом (пустьскажем, мы принимаем 0,1 эпсилон), ясначала я случайным образом выберу одно из действий, напримерA, В следующий раз яЯ буду, вероятно, (90% случаев) выбрать сноваA и это приведет к тому, что Q (K, A) будет расти и расти, и это правда, даже если случайно я попытаюсьA'так как, вероятно, его награда будет такой же величины, как и у А, мыЯ попал в ситуацию, когда этос практически невозможновосстановить» от нашего первого предположения, во время остальной части обучения.

Я полагаю, что это не должно быть так, иначе агент не научился бы - этоследуйте простому рецепту: делайте все так, как делали в первый раз.

Я что-то пропустил? Я знаю, что могу настроить альфа-значение (обычно уменьшая его с течением времени), но это никоим образом не улучшает нашу ситуацию.

Ответы на вопрос(3)

Ваш ответ на вопрос