1.4.4 – Metodos Actor-Critic
1.4.4.1 – Arquiteturas Basicas
dois aprendizes em um
Métodos Actor-Critic combinam aprendizado de política (ator) e valor (crítico) em um único sistema. Diferente de métodos puros, eles usam o crítico para avaliar ações do ator. Primeiramente, o ator aprende a política π_θ(a|s) que escolhe ações. Além disso, o crítico aprende a função valor V(s) ou Q(s,a) para avaliar. Por exemplo, o crítico dá feedback ao ator sobre qualidade das ações.
aprendizado online e eficiente
Actor-Critic aprende online, atualizando após cada passo em vez de episódios completos. Primeiramente, usa o crítico para calcular vantagem A(s,a) = r + γ V(s’) – V(s). Além disso, o ator atualiza na direção que aumenta vantagem. Por exemplo, ações melhores que o esperado são reforçadas imediatamente. É mais eficiente que métodos de Monte Carlo.
vantagens sobre métodos puros
Actor-Critic reduz variância comparado a métodos de gradiente de política puros. Primeiramente, usa o crítico como linha de base adaptativa. Além disso, permite aprendizado incremental sem esperar fim de episódios. Por exemplo, funciona bem em tarefas contínuas sem episódios definidos. Combina o melhor de métodos baseados em política e valor.
implementações modernas
A2C (Advantage Actor-Critic) e A3C (Asynchronous) são implementações populares. Primeiramente, usam múltiplos agentes paralelos para estabilizar aprendizado. Além disso, mantêm ator e crítico compartilhando camadas da rede neural. Por exemplo, usado em jogos, robótica e controle. Para iniciantes, mostra como ator e crítico cooperam. É a base para algoritmos modernos como PPO e SAC.