Nieograniczony wzrost wartości Q, konsekwencja powtarzającej się nagrody po powtórzeniu tej samej akcji w Q-Learning

Jestem w trakcie opracowywania prostej implementacji Q-Learning nad banalną aplikacją, ale wciąż coś mnie zastanawia.

Rozważmy standardowe sformułowanie Q-Learning

Q(S, A) = Q(S, A) + alpha * [R +  MaxQ(S', A') - Q(S, A)]

Załóżmy, że jest ten stanK to ma dwie możliwe akcje, obie nagrody naszego agentaR iR' przezA iA'.

Jeśli zastosujemy podejście niemal całkowicie zachłanne (powiedzmy, że przyjmujemy 0,1 epsilon), najpierw wybiorę losowo jedną z akcji, na przykładA. Następnym razem prawdopodobnie (90% razy) wybiorę ponownieA a to sprawi, że Q (K, A) będzie rosło i rosło, będąc prawdziwym przypadkiem, że nawet jeśli przez przypadek spróbujęA', ponieważ prawdopodobnie jego nagroda jest tej samej wielkości, co nagroda A, dostaniemy się do sytuacji, w której praktycznie niemożliwe jest „odzyskanie” po naszym pierwszym zgadywaniu, podczas reszty nauki.

Domyślam się, że tak nie jest, w przeciwnym razie agent w zasadzie się nie nauczył - byłoby to zgodne z prostą recepturą: rób wszystko tak, jak zrobiłeś to za pierwszym razem.

Czy czegoś mi brakuje? Wiem, że mogę poprawić wartość alfa (zazwyczaj zmniejszając ją z czasem), ale to w żaden sposób nie poprawia naszej sytuacji.

questionAnswers(3)

yourAnswerToTheQuestion