Twin Delayed DDPG – TD3

bebê aprendendo a andar

corrigindo limitações do ddpg

TD3 (Twin Delayed DDPG) melhora DDPG com três modificações principais. Diferente de DDPG, ele resolve problemas de superestimação e variância alta. Primeiramente, usa duas redes Q (twin) e usa o menor valor dos dois. Além disso, atrasa atualizações da política e adiciona ruído suave. Por exemplo, em controle robótico, alcança desempenho muito superior.

redes twin e alvos

TD3 mantém duas redes Q independentes para reduzir superestimação de valores. Primeiramente, calcula target y = r + γ min(Q_target1(s’,a’), Q_target2(s’,a’)). Além disso, atualiza as redes com o menor valor das duas. Por exemplo, previne que uma rede superestimada engane o aprendizado. É inspirado no Double Q-Learning.

atraso e ruído suave

TD3 atrasa atualizações da política para reduzir propagação de erros. Primeiramente, atualiza ator a cada duas atualizações do crítico. Além disso, adiciona ruído gaussiano às ações alvo para suavizar. Por exemplo, a_target = μ_target(s’) + clip(ruído, -c, c). Melhora exploração e estabilidade.

impacto e aplicações

TD3 é referência para problemas de controle contínuo. Primeiramente, supera DDPG em robótica, simulação e controle. Além disso, é mais estável e eficiente em amostras. Por exemplo, usado em manipulação robótica e veículos autônomos. Para iniciantes, TD3 mostra como pequenas melhorias geram grandes ganhos. É um algoritmo moderno e robusto.

Deep Deterministic Policy Gradient – DDPG

aprendizado contínuo off-policy

DDPG (Deep Deterministic Policy Gradient) adapta DQN para espaços de ação contínua. Diferente de métodos discretos, ele aprende políticas determinísticas diretamente. Primeiramente, combina Actor-Critic com técnicas de DQN como replay buffer e target networks. Além disso, usa ruído para exploração em ação contínua. Por exemplo, controla braços robóticos com torque contínuo.

arquitetura determinística

DDPG aprende uma política determinística μ(s) em vez de distribuição de probabilidades. Primeiramente, o ator mapeia estados diretamente para ações contínuas. Além disso, o crítico aprende Q(s,a) para avaliar pares estado-ação. Por exemplo, ator decide torque exato, crítico avalia qualidade.

técnicas de estabilização

DDPG usa replay buffer e target networks para estabilizar aprendizado off-policy. Primeiramente, replay buffer armazena transições (s,a,r,s’) para reutilização. Além disso, target networks atualizam suavemente (soft updates) para estabilidade. Por exemplo, τ=0.001 atualiza targets gradualmente. Essas técnicas previnem divergência.

aplicações e legado

DDPG foi pioneiro em aprendizado por reforço para ação contínua. Primeiramente, usado em robótica, controle e simulações físicas. Além disso, inspirou algoritmos modernos como TD3 e SAC. Por exemplo, controle de drones e veículos autônomos. Para iniciantes, DDPG mostra como estender DQN para ação contínua. É um algoritmo fundamental em reinforcement learning.