Métodos Actor-Critic - Área de Trampo

4 – Por Reforco
4.4 – Metodos Actor-Critic
4.4.1 – Arquiteturas Basicas

LEGENDA

Principal

Ramo

Metodo

Problemas

Modelo

Arquitetura

dois aprendizes em um

Métodos Actor-Critic combinam aprendizado de política (ator) e valor (crítico) em um único sistema. Diferente de métodos puros, eles usam o crítico para avaliar ações do ator. Primeiramente, o ator aprende a política π_θ(a|s) que escolhe ações. Além disso, o crítico aprende a função valor V(s) ou Q(s,a) para avaliar. Por exemplo, o crítico dá feedback ao ator sobre qualidade das ações.

aprendizado online e eficiente

Actor-Critic aprende online, atualizando após cada passo em vez de episódios completos. Primeiramente, usa o crítico para calcular vantagem A(s,a) = r + γ V(s’) – V(s). Além disso, o ator atualiza na direção que aumenta vantagem. Por exemplo, ações melhores que o esperado são reforçadas imediatamente. É mais eficiente que métodos de Monte Carlo.

vantagens sobre métodos puros

Actor-Critic reduz variância comparado a métodos de gradiente de política puros. Primeiramente, usa o crítico como linha de base adaptativa. Além disso, permite aprendizado incremental sem esperar fim de episódios. Por exemplo, funciona bem em tarefas contínuas sem episódios definidos. Combina o melhor de métodos baseados em política e valor.

implementações modernas

A2C (Advantage Actor-Critic) e A3C (Asynchronous) são implementações populares. Primeiramente, usam múltiplos agentes paralelos para estabilizar aprendizado. Além disso, mantêm ator e crítico compartilhando camadas da rede neural. Por exemplo, usado em jogos, robótica e controle. Para iniciantes, mostra como ator e crítico cooperam. É a base para algoritmos modernos como PPO e SAC.

Indice

dois aprendizes em um

aprendizado online e eficiente

vantagens sobre métodos puros

implementações modernas

Deixe um comentário Cancelar resposta