¿Qué es una política en el aprendizaje por refuerzo? [cerrado]

He visto palabras como:

Una política define la forma de comportamiento del agente de aprendizaje en un momento dado. En términos generales, una política es un mapeo de los estados percibidos del medio ambiente a las acciones que deben tomarse en esos estados.

Pero aún no entendía completamente. ¿Qué es exactamente una política en el aprendizaje por refuerzo?