corrigindo limitações do ddpg
TD3 (Twin Delayed DDPG) melhora DDPG com três modificações principais. Diferente de DDPG, ele resolve problemas de superestimação e variância alta. Primeiramente, usa duas redes Q (twin) e usa o menor valor dos dois. Além disso, atrasa atualizações da política e adiciona ruído suave. Por exemplo, em controle robótico, alcança desempenho muito superior.
redes twin e alvos
TD3 mantém duas redes Q independentes para reduzir superestimação de valores. Primeiramente, calcula target y = r + γ min(Q_target1(s’,a’), Q_target2(s’,a’)). Além disso, atualiza as redes com o menor valor das duas. Por exemplo, previne que uma rede superestimada engane o aprendizado. É inspirado no Double Q-Learning.
atraso e ruído suave
TD3 atrasa atualizações da política para reduzir propagação de erros. Primeiramente, atualiza ator a cada duas atualizações do crítico. Além disso, adiciona ruído gaussiano às ações alvo para suavizar. Por exemplo, a_target = μ_target(s’) + clip(ruído, -c, c). Melhora exploração e estabilidade.
impacto e aplicações
TD3 é referência para problemas de controle contínuo. Primeiramente, supera DDPG em robótica, simulação e controle. Além disso, é mais estável e eficiente em amostras. Por exemplo, usado em manipulação robótica e veículos autônomos. Para iniciantes, TD3 mostra como pequenas melhorias geram grandes ganhos. É um algoritmo moderno e robusto.