Soft Actor-Critic – SAC

bebê aprendendo a andar

maximizando recompensa e entropia

SAC (Soft Actor-Critic) maximiza simultaneamente recompensa esperada e entropia da política. Diferente de métodos tradicionais, incentiva exploração através da entropia. Primeiramente, adiciona termo de entropia H(π(·|s)) à função objetivo. Além disso, aprende automaticamente o coeficiente de temperatura α. Por exemplo, explora mais quando benefício da entropia supera o custo.

arquitetura off-policy com duas q

SAC usa duas redes Q (twin) e replay buffer para aprendizado off-policy eficiente. Primeiramente, calcula target com mínimo das duas Q e termo de entropia. Além disso, atualiza política para maximizar Q(s,a) + α H(π(·|s)). Por exemplo, reutiliza experiências passadas como DQN. É altamente eficiente em amostras.

ajuste automático de temperatura

SAC aprende o coeficiente de entropia α automaticamente durante o treinamento. Primeiramente, otimiza α para manter entropia acima de um alvo definido. Além disso, α alto incentiva exploração; α baixo favorece exploração. Por exemplo, se entropia cai abaixo do alvo, α aumenta. Simplifica hiperparâmetros.

estado da arte em ação contínua

SAC é referência para problemas de controle contínuo atualmente. Primeiramente, supera PPO, TD3 e DDPG em muitos domínios. Além disso, é eficiente, estável e fácil de usar. Por exemplo, robótica, manipulação e simulações complexas. Para iniciantes, SAC representa o estado da arte em reinforcement learning. É algoritmo moderno e versátil.

Twin Delayed DDPG – TD3

bebê aprendendo a andar

corrigindo limitações do ddpg

TD3 (Twin Delayed DDPG) melhora DDPG com três modificações principais. Diferente de DDPG, ele resolve problemas de superestimação e variância alta. Primeiramente, usa duas redes Q (twin) e usa o menor valor dos dois. Além disso, atrasa atualizações da política e adiciona ruído suave. Por exemplo, em controle robótico, alcança desempenho muito superior.

redes twin e alvos

TD3 mantém duas redes Q independentes para reduzir superestimação de valores. Primeiramente, calcula target y = r + γ min(Q_target1(s’,a’), Q_target2(s’,a’)). Além disso, atualiza as redes com o menor valor das duas. Por exemplo, previne que uma rede superestimada engane o aprendizado. É inspirado no Double Q-Learning.

atraso e ruído suave

TD3 atrasa atualizações da política para reduzir propagação de erros. Primeiramente, atualiza ator a cada duas atualizações do crítico. Além disso, adiciona ruído gaussiano às ações alvo para suavizar. Por exemplo, a_target = μ_target(s’) + clip(ruído, -c, c). Melhora exploração e estabilidade.

impacto e aplicações

TD3 é referência para problemas de controle contínuo. Primeiramente, supera DDPG em robótica, simulação e controle. Além disso, é mais estável e eficiente em amostras. Por exemplo, usado em manipulação robótica e veículos autônomos. Para iniciantes, TD3 mostra como pequenas melhorias geram grandes ganhos. É um algoritmo moderno e robusto.