Resultados da pesquisa a pedido "reinforcement-learning"

1 a resposta

Processo de decisão do Markov Model em Java

Estou escrevendo um algoritmo de aprendizado assistido em Java. Encontrei um problema matemático que provavelmente posso resolver, mas como o processamento será pesado, preciso de uma solução ótima. Dito isto, se alguém conhece uma biblioteca ...

0 a resposta

Executando o modelo Keras para previsão em vários encadeamentos

igual aessa questão [https://stackoverflow.com/questions/38526762/how-to-run-several-keras-neural-networks-in-parallel] Eu estava executando um algoritmo de aprendizado por reforço assíncrono e preciso executar a previsão do modelo em vários ...

1 a resposta

Pytorch: Como criar uma regra de atualização que não vem de derivativo

Eu quero implementar o seguinte algoritmo, retirado deeste livro, seção 13.6 [http://incompleteideas.net/book/bookdraft2017nov5.pdf]: [/imgs/YxBlr.png] Não entendo como implementar a regra de atualização no pytorch (a regra para w é bastante ...

3 a resposta

Aumento ilimitado do Q-Value, consequência da recompensa recorrente após repetir a mesma ação no Q-Learning

1 a resposta

Exibir o ginásio OpenAI apenas no notebook Jupyter

Quero brincar com as academias da OpenAI em um notebook, com a academia sendo renderizada em linh Aqui está um exemplo básico: import matplotlib.pyplot as plt import gym from IPython import display %matplotlib inline env = ...

2 a resposta

Usando o aprendizado por reforço para problemas de classificação

Posso usar o aprendizado por reforço na classificação? Como reconhecimento da atividade humana? E como?

5 a resposta

Como aplicar o aprendizado por reforço em espaços de ação contínua?

Estou tentando convencer um agente a aprender os movimentos do mouse necessários para executar melhor uma tarefa em um ambiente de aprendizado por reforço (ou seja, o sinal de recompensa é o único feedback para o aprendizado Espero usar a ...

3 a resposta

O que é uma política no aprendizado por reforço? [fechadas]

Eu já vi palavras como: Uma política define a maneira de o agente de aprendizagem se comportar em um determinado momento. Grosso modo, uma política é um mapeamento dos estados percebidos do ambiente para as ações a serem tomadas quando nesses ...

3 a resposta

Como as redes neurais usam algoritmos genéticos e retropropagação para jogar?

Me depareieste vídeo interessante no YouTube sobre algoritmos genéticos [https://www.youtube.com/watch?v=u2t77mQmJiY]. Como você pode ver no vídeo, os bots aprendem a lutar. Agora, venho estudando redes neurais há um tempo e queria começar a ...