Deep Deterministic Policy Gradient – DDPG

aprendizado contínuo off-policy

DDPG (Deep Deterministic Policy Gradient) adapta DQN para espaços de ação contínua. Diferente de métodos discretos, ele aprende políticas determinísticas diretamente. Primeiramente, combina Actor-Critic com técnicas de DQN como replay buffer e target networks. Além disso, usa ruído para exploração em ação contínua. Por exemplo, controla braços robóticos com torque contínuo.

arquitetura determinística

DDPG aprende uma política determinística μ(s) em vez de distribuição de probabilidades. Primeiramente, o ator mapeia estados diretamente para ações contínuas. Além disso, o crítico aprende Q(s,a) para avaliar pares estado-ação. Por exemplo, ator decide torque exato, crítico avalia qualidade.

técnicas de estabilização

DDPG usa replay buffer e target networks para estabilizar aprendizado off-policy. Primeiramente, replay buffer armazena transições (s,a,r,s’) para reutilização. Além disso, target networks atualizam suavemente (soft updates) para estabilidade. Por exemplo, τ=0.001 atualiza targets gradualmente. Essas técnicas previnem divergência.

aplicações e legado

DDPG foi pioneiro em aprendizado por reforço para ação contínua. Primeiramente, usado em robótica, controle e simulações físicas. Além disso, inspirou algoritmos modernos como TD3 e SAC. Por exemplo, controle de drones e veículos autônomos. Para iniciantes, DDPG mostra como estender DQN para ação contínua. É um algoritmo fundamental em reinforcement learning.

Deixe um comentário