Если вы находитесь в состоянии 1, вы (при условии жадной стратегии) ​​выберете действие 1. Если вы находитесь в состоянии 2, вы выберете действие 2.

ел такие слова как:

Политика определяет способ поведения обучающего агента в данный момент времени. Грубо говоря, политика - это сопоставление воспринимаемых состояний окружающей среды с действиями, которые должны быть предприняты в этих государствах.

Но все еще не до конца понял. Что именно представляет собой политика в обучении с подкреплением?

Ответы на вопрос(3)

Решение Вопроса

но не сразу очевидное, если вы видите его впервые. Позвольте мне сказать это так:политика это стратегия агента.

Например, представьте мир, в котором робот перемещается по комнате, и задача состоит в том, чтобы добраться до целевой точки (x, y), где он получает награду. Вот:

Комната этоокружающая обстановкаТекущая позиция роботагосударство

A политика Вот что делает агент для выполнения этой задачи:

тупые роботы просто бродят случайным образом, пока они случайно не окажутся в нужном месте (политика № 1)другие могут по какой-то причине научиться проходить вдоль стен большую часть маршрута (политика № 2)Умные роботы планируют маршрут в своей «голове» и идут прямо к цели (политика № 3)

Очевидно, что некоторые политики лучше, чем другие, и существует несколько способов их оценки, а именнофункция значения состояния а такжефункция действия, Цель RL - изучить лучшую политику. Теперь определение должно иметь больше смысла (обратите внимание, что в контексте время лучше понимается как состояние):

Политика определяет способ поведения обучающего агента в данный момент времени.

Формально

Более формально, мы должны сначала определитьМарковский процесс принятия решений (MDP) в виде кортежа (S, A, P, R, y), где:

S это конечный набор состоянийA это конечный набор действийP является матрицей вероятности перехода состояний (вероятность попадания в состояние для каждого текущего состояния и каждого действия)R является функцией вознаграждения, учитывая состояние и действиеy коэффициент дисконтирования, от 0 до 1

Тогда политикаπ распределение вероятностей по действиям заданных состояний. Это вероятность каждого действия, когда агент находится в определенном состоянии (конечно, я пропускаю много деталей здесь). Это определение соответствует второй части вашего определения.

я очень рекомендуюКурс Дэвида Сильвера доступно на YouTube. Первые две лекции посвящены, в частности, MDP и политике.

политика - это «мышление» агента. Это отображение, когда вы находитесь в каком-то состоянииsкакое действиеa агент должен взять сейчас? Вы можете думать о политиках как о таблице поиска:

state----action----probability/'goodness' of taking the action
  1         1                     0.6
  1         2                     0.4
  2         1                     0.3
  2         2                     0.7

Если вы находитесь в состоянии 1, вы (при условии жадной стратегии) ​​выберете действие 1. Если вы находитесь в состоянии 2, вы выберете действие 2.

π это функция, которая принимает в качестве входных данных состояниеs и возвращает действиеa, Это:π(s) → a

Таким образом, политика обычно используется агентом, чтобы решить, какое действиеa должно быть выполнено, когда оно находится в данном состоянииs.

Иногда политика может бытьстохастический вместодетерминистический, В таком случае вместо возврата уникального действияaполитика возвращает распределение вероятностей по набору действий.

В общем, цель любого алгоритма RL состоит в том, чтобы изучить оптимальную политику, которая достигает конкретной цели.

Ваш ответ на вопрос