maximizando recompensa e entropia
SAC (Soft Actor-Critic) maximiza simultaneamente recompensa esperada e entropia da política. Diferente de métodos tradicionais, incentiva exploração através da entropia. Primeiramente, adiciona termo de entropia H(π(·|s)) à função objetivo. Além disso, aprende automaticamente o coeficiente de temperatura α. Por exemplo, explora mais quando benefício da entropia supera o custo.
arquitetura off-policy com duas q
SAC usa duas redes Q (twin) e replay buffer para aprendizado off-policy eficiente. Primeiramente, calcula target com mínimo das duas Q e termo de entropia. Além disso, atualiza política para maximizar Q(s,a) + α H(π(·|s)). Por exemplo, reutiliza experiências passadas como DQN. É altamente eficiente em amostras.
ajuste automático de temperatura
SAC aprende o coeficiente de entropia α automaticamente durante o treinamento. Primeiramente, otimiza α para manter entropia acima de um alvo definido. Além disso, α alto incentiva exploração; α baixo favorece exploração. Por exemplo, se entropia cai abaixo do alvo, α aumenta. Simplifica hiperparâmetros.
estado da arte em ação contínua
SAC é referência para problemas de controle contínuo atualmente. Primeiramente, supera PPO, TD3 e DDPG em muitos domínios. Além disso, é eficiente, estável e fácil de usar. Por exemplo, robótica, manipulação e simulações complexas. Para iniciantes, SAC representa o estado da arte em reinforcement learning. É algoritmo moderno e versátil.