Deep Deterministic Policy Gradient – DDPG

aprendizado contínuo off-policy

DDPG (Deep Deterministic Policy Gradient) adapta DQN para espaços de ação contínua. Diferente de métodos discretos, ele aprende políticas determinísticas diretamente. Primeiramente, combina Actor-Critic com técnicas de DQN como replay buffer e target networks. Além disso, usa ruído para exploração em ação contínua. Por exemplo, controla braços robóticos com torque contínuo.

arquitetura determinística

DDPG aprende uma política determinística μ(s) em vez de distribuição de probabilidades. Primeiramente, o ator mapeia estados diretamente para ações contínuas. Além disso, o crítico aprende Q(s,a) para avaliar pares estado-ação. Por exemplo, ator decide torque exato, crítico avalia qualidade.

técnicas de estabilização

DDPG usa replay buffer e target networks para estabilizar aprendizado off-policy. Primeiramente, replay buffer armazena transições (s,a,r,s’) para reutilização. Além disso, target networks atualizam suavemente (soft updates) para estabilidade. Por exemplo, τ=0.001 atualiza targets gradualmente. Essas técnicas previnem divergência.

aplicações e legado

DDPG foi pioneiro em aprendizado por reforço para ação contínua. Primeiramente, usado em robótica, controle e simulações físicas. Além disso, inspirou algoritmos modernos como TD3 e SAC. Por exemplo, controle de drones e veículos autônomos. Para iniciantes, DDPG mostra como estender DQN para ação contínua. É um algoritmo fundamental em reinforcement learning.

Proximal Policy Optimization – PPO

bebê aprendendo a andar

otimização estável de política

PPO (Proximal Policy Optimization) é o algoritmo de reforço mais utilizado atualmente. Desenvolvido pela OpenAI, ele limita mudanças bruscas na política durante atualizações. Primeiramente, usa clipping para manter nova política próxima da anterior. Além disso, permite múltiplas atualizações com os mesmos dados de experiência. Por exemplo, em jogos, treina políticas complexas com estabilidade.

mecanismo de clipping

O clipping do PPO restringe a razão de probabilidade entre políticas nova e antiga. Primeiramente, r_t(θ) = π_θ(a|s) / π_θ_old(a|s) é a razão. Além disso, clipa r_t(θ) no intervalo [1-ε, 1+ε]. Por exemplo, ε=0.2 limita mudanças a 20% por atualização. Evita atualizações destrutivas.

função objetivo do ppo

PPO maximiza uma função objetivo que combina clipping e vantagem. Primeiramente, L = E[min(r_t(θ) A_t, clip(r_t(θ), 1-ε, 1+ε) A_t)]. Além disso, inclui termo de entropia para exploração e erro de valor. Por exemplo, atualiza política e valor simultaneamente.

vantagens e aplicações

PPO é estável, simples e eficiente para uma ampla gama de problemas. Primeiramente, usado em jogos, robótica, controle e simulações. Além disso, é padrão em ambientes contínuos e discretos. Por exemplo, ChatGPT usa PPO para alinhamento com feedback humano. Para iniciantes, PPO representa o estado da arte em reforço. É a ferramenta preferida para projetos modernos.