Resultados de la búsqueda a petición "reinforcement-learning"

0 la respuesta

Ejecutar el modelo de Keras para la predicción en múltiples hilos

Similar aesta pregunta [https://stackoverflow.com/questions/38526762/how-to-run-several-keras-neural-networks-in-parallel] Estaba ejecutando un algoritmo de aprendizaje de refuerzo asíncrono y necesito ejecutar la predicción del modelo en ...

3 la respuesta

¿Qué es una política en el aprendizaje por refuerzo? [cerrado]

He visto palabras como: Una política define la forma de comportamiento del agente de aprendizaje en un momento dado. En términos generales, una política es un mapeo de los estados percibidos del medio ambiente a las acciones que deben tomarse en ...

5 la respuesta

¿Cómo puedo aplicar el aprendizaje por refuerzo a espacios de acción continua?

Estoy tratando de hacer que un agente aprenda los movimientos del mouse necesarios para realizar mejor alguna tarea en un entorno de aprendizaje de refuerzo (es decir, la señal de recompensa es la única respuesta para el aprendizaje). Espero ...

1 la respuesta

Proceso de decisión del modelo de Markov en Java

Estoy escribiendo un algoritmo de aprendizaje asistido en Java. Me he encontrado con un problema matemático que probablemente pueda resolver, pero debido a que el procesamiento será pesado, necesito una solución óptima. Dicho esto, si alguien ...

1 la respuesta

Pytorch: ¿Cómo crear una regla de actualización que no provenga de derivados?

Quiero implementar el siguiente algoritmo, tomado deeste libro, sección 13.6 [http://incompleteideas.net/book/bookdraft2017nov5.pdf]: [/imgs/YxBlr.png] No entiendo cómo implementar la regla de actualización en pytorch (la regla para w es ...

2 la respuesta

Uso del aprendizaje por refuerzo para problemas de clasificación

¿Puedo usar el aprendizaje por refuerzo en la clasificación? ¿Como el reconocimiento de la actividad humana? ¿Y cómo?

1 la respuesta

Mostrar el gimnasio OpenAI solo en el cuaderno Jupyter

Quiero jugar con los gimnasios de OpenAI en un cuaderno, con el gimnasio en línea. Aquí hay un ejemplo básico: import matplotlib.pyplot as plt import gym from IPython import display %matplotlib inline env = gym.make('CartPole-v0') env.reset() ...

3 la respuesta

Aumento ilimitado en Q-Value, consecuencia de la recompensa recurrente después de repetir la misma acción en Q-Learning

Estoy en el proceso de desarrollo de una implementación simple de Q-Learning sobre una aplicación trivial, pero hay algo que me sigue desconcertando.Consider...

3 la respuesta

¿Cómo usan las redes neuronales los algoritmos genéticos y la propagación hacia atrás para jugar?

Me encontré coneste interesante video en YouTube sobre algoritmos genéticos [https://www.youtube.com/watch?v=u2t77mQmJiY]. Como puedes ver en el video, los bots aprenden a pelear. Ahora, he estado estudiando redes neuronales por un tiempo y ...