¿Qué es una política en el aprendizaje por refuerzo? [cerrado]
He visto palabras como:
Una política define la forma de comportamiento del agente de aprendizaje en un momento dado. En términos generales, una política es un mapeo de los estados percibidos del medio ambiente a las acciones que deben tomarse en esos estados.
Pero aún no entendía completamente. ¿Qué es exactamente una política en el aprendizaje por refuerzo?