Soft Actor-Critic - SAC - Área de Trampo

maximizando recompensa e entropia

SAC (Soft Actor-Critic) maximiza simultaneamente recompensa esperada e entropia da política. Diferente de métodos tradicionais, incentiva exploração através da entropia. Primeiramente, adiciona termo de entropia H(π(·|s)) à função objetivo. Além disso, aprende automaticamente o coeficiente de temperatura α. Por exemplo, explora mais quando benefício da entropia supera o custo.

arquitetura off-policy com duas q

SAC usa duas redes Q (twin) e replay buffer para aprendizado off-policy eficiente. Primeiramente, calcula target com mínimo das duas Q e termo de entropia. Além disso, atualiza política para maximizar Q(s,a) + α H(π(·|s)). Por exemplo, reutiliza experiências passadas como DQN. É altamente eficiente em amostras.

ajuste automático de temperatura

SAC aprende o coeficiente de entropia α automaticamente durante o treinamento. Primeiramente, otimiza α para manter entropia acima de um alvo definido. Além disso, α alto incentiva exploração; α baixo favorece exploração. Por exemplo, se entropia cai abaixo do alvo, α aumenta. Simplifica hiperparâmetros.

estado da arte em ação contínua

SAC é referência para problemas de controle contínuo atualmente. Primeiramente, supera PPO, TD3 e DDPG em muitos domínios. Além disso, é eficiente, estável e fácil de usar. Por exemplo, robótica, manipulação e simulações complexas. Para iniciantes, SAC representa o estado da arte em reinforcement learning. É algoritmo moderno e versátil.

Indice

Soft Actor-Critic – SAC

maximizando recompensa e entropia

arquitetura off-policy com duas q

ajuste automático de temperatura

estado da arte em ação contínua

Deixe um comentário Cancelar resposta