1.4.2 – Metodos Baseados em Valor
1.4.2.1 – Programacao Dinamica
1.4.2.2 – Metodos de Monte Carlo
1.4.2.3 – Temporal Difference – TD
1.4.2.4 – Aproximacao de Funcoes
aprendendo a função valor primeiro
Métodos baseados em valor aprendem a função valor para depois derivar a política. Diferente de métodos diretos, eles estimam Q(s,a) ou V(s) primeiro. Primeiramente, a política ótima é derivada escolhendo ações com maior valor. Além disso, não há representação explícita da política durante o aprendizado. Por exemplo, Q-learning aprende Q(s,a) e depois age greedy sobre ele. A política é implícita na função valor aprendida.
q-learning: o algoritmo fundamental
Q-learning é o algoritmo mais conhecido de métodos baseados em valor. Ele aprende a função ação-valor Q(s,a) usando a equação de Bellman. Primeiramente, atualiza Q(s,a) com base em recompensa imediata e máximo Q futuro. Além disso, é off-policy: aprende política ótima independente da política comportamental. Por exemplo, pode aprender com dados gerados por políticas exploratórias. Converge para política ótima sob condições adequadas.
deep q-networks (dqn)
DQN combina Q-learning com redes neurais profundas para problemas de alta dimensão. Primeiramente, usa redes neurais para aproximar Q(s,a) em espaços contínuos de estado. Além disso, introduz replay de experiências e rede alvo para estabilidade. Por exemplo, jogos de Atari são resolvidos apenas com pixels como entrada. DQN marcou o início do deep reinforcement learning moderno.
vantagens e limitações
Métodos baseados em valor são eficientes para problemas com ações discretas. Primeiramente, aprendem valores que permitem planejamento implícito sem modelo. Além disso, são off-policy, reutilizando experiências de qualquer política. No entanto, não lidam bem com ações contínuas e grandes espaços. Para iniciantes, mostram como avaliar ações através de valores aprendidos. É a base para muitos algoritmos de reforço modernos.