aprendizado contínuo off-policy
DDPG (Deep Deterministic Policy Gradient) adapta DQN para espaços de ação contínua. Diferente de métodos discretos, ele aprende políticas determinísticas diretamente. Primeiramente, combina Actor-Critic com técnicas de DQN como replay buffer e target networks. Além disso, usa ruído para exploração em ação contínua. Por exemplo, controla braços robóticos com torque contínuo.
arquitetura determinística
DDPG aprende uma política determinística μ(s) em vez de distribuição de probabilidades. Primeiramente, o ator mapeia estados diretamente para ações contínuas. Além disso, o crítico aprende Q(s,a) para avaliar pares estado-ação. Por exemplo, ator decide torque exato, crítico avalia qualidade.
técnicas de estabilização
DDPG usa replay buffer e target networks para estabilizar aprendizado off-policy. Primeiramente, replay buffer armazena transições (s,a,r,s’) para reutilização. Além disso, target networks atualizam suavemente (soft updates) para estabilidade. Por exemplo, τ=0.001 atualiza targets gradualmente. Essas técnicas previnem divergência.
aplicações e legado
DDPG foi pioneiro em aprendizado por reforço para ação contínua. Primeiramente, usado em robótica, controle e simulações físicas. Além disso, inspirou algoritmos modernos como TD3 e SAC. Por exemplo, controle de drones e veículos autônomos. Para iniciantes, DDPG mostra como estender DQN para ação contínua. É um algoritmo fundamental em reinforcement learning.