Twin Delayed DDPG – TD3

corrigindo limitações do ddpg

TD3 (Twin Delayed DDPG) melhora DDPG com três modificações principais. Diferente de DDPG, ele resolve problemas de superestimação e variância alta. Primeiramente, usa duas redes Q (twin) e usa o menor valor dos dois. Além disso, atrasa atualizações da política e adiciona ruído suave. Por exemplo, em controle robótico, alcança desempenho muito superior.

redes twin e alvos

TD3 mantém duas redes Q independentes para reduzir superestimação de valores. Primeiramente, calcula target y = r + γ min(Q_target1(s’,a’), Q_target2(s’,a’)). Além disso, atualiza as redes com o menor valor das duas. Por exemplo, previne que uma rede superestimada engane o aprendizado. É inspirado no Double Q-Learning.

atraso e ruído suave

TD3 atrasa atualizações da política para reduzir propagação de erros. Primeiramente, atualiza ator a cada duas atualizações do crítico. Além disso, adiciona ruído gaussiano às ações alvo para suavizar. Por exemplo, a_target = μ_target(s’) + clip(ruído, -c, c). Melhora exploração e estabilidade.

impacto e aplicações

TD3 é referência para problemas de controle contínuo. Primeiramente, supera DDPG em robótica, simulação e controle. Além disso, é mais estável e eficiente em amostras. Por exemplo, usado em manipulação robótica e veículos autônomos. Para iniciantes, TD3 mostra como pequenas melhorias geram grandes ganhos. É um algoritmo moderno e robusto.

Deixe um comentário