Неограниченное увеличение Q-Value, последствие повторяющегося вознаграждения после повторения того же действия в Q-Learning
м в процессе разработки простой реализации Q-Learning над тривиальным приложением, но естьЧто-то, что продолжает меня озадачивать.
Позволять'Рассмотрим стандартную формулировку Q-Learning
Q(S, A) = Q(S, A) + alpha * [R + MaxQ(S', A') - Q(S, A)]
Позволять'Предположим, что естьэто состояниеK
у этого есть два возможных действия, оба награждают наши агентские вознагражденияR
а такжеR'
отA
а также .A'
Если мы будем следовать почти полностью жадным подходом (пустьскажем, мы принимаем 0,1 эпсилон), ясначала я случайным образом выберу одно из действий, напримерA
, В следующий раз яЯ буду, вероятно, (90% случаев) выбрать сноваA
и это приведет к тому, что Q (K, A) будет расти и расти, и это правда, даже если случайно я попытаюсьA'
так как, вероятно, его награда будет такой же величины, как и у А, мыЯ попал в ситуацию, когда этос практически невозможновосстановить» от нашего первого предположения, во время остальной части обучения.
Я полагаю, что это не должно быть так, иначе агент не научился бы - этоследуйте простому рецепту: делайте все так, как делали в первый раз.
Я что-то пропустил? Я знаю, что могу настроить альфа-значение (обычно уменьшая его с течением времени), но это никоим образом не улучшает нашу ситуацию.