Métodos Baseados em Valor - Área de Trampo

4 – Por Reforco
4.2 – Metodos Baseados em Valor
4.2.1 – Programacao Dinamica
4.2.2 – Metodos de Monte Carlo
4.2.3 – Temporal Difference – TD
4.2.4 – Aproximacao de Funcoes

LEGENDA

Principal

Ramo

Metodo

Problemas

Modelo

Arquitetura

aprendendo a função valor primeiro

Métodos baseados em valor aprendem a função valor para depois derivar a política. Diferente de métodos diretos, eles estimam Q(s,a) ou V(s) primeiro. Primeiramente, a política ótima é derivada escolhendo ações com maior valor. Além disso, não há representação explícita da política durante o aprendizado. Por exemplo, Q-learning aprende Q(s,a) e depois age greedy sobre ele. A política é implícita na função valor aprendida.

q-learning: o algoritmo fundamental

Q-learning é o algoritmo mais conhecido de métodos baseados em valor. Ele aprende a função ação-valor Q(s,a) usando a equação de Bellman. Primeiramente, atualiza Q(s,a) com base em recompensa imediata e máximo Q futuro. Além disso, é off-policy: aprende política ótima independente da política comportamental. Por exemplo, pode aprender com dados gerados por políticas exploratórias. Converge para política ótima sob condições adequadas.

deep q-networks (dqn)

DQN combina Q-learning com redes neurais profundas para problemas de alta dimensão. Primeiramente, usa redes neurais para aproximar Q(s,a) em espaços contínuos de estado. Além disso, introduz replay de experiências e rede alvo para estabilidade. Por exemplo, jogos de Atari são resolvidos apenas com pixels como entrada. DQN marcou o início do deep reinforcement learning moderno.

vantagens e limitações

Métodos baseados em valor são eficientes para problemas com ações discretas. Primeiramente, aprendem valores que permitem planejamento implícito sem modelo. Além disso, são off-policy, reutilizando experiências de qualquer política. No entanto, não lidam bem com ações contínuas e grandes espaços. Para iniciantes, mostram como avaliar ações através de valores aprendidos. É a base para muitos algoritmos de reforço modernos.

Indice

aprendendo a função valor primeiro

q-learning: o algoritmo fundamental

deep q-networks (dqn)

vantagens e limitações

Deixe um comentário Cancelar resposta