1.4.4 – Metodos Actor-Critic
1.4.4.2 – Metodos Avancados
1.4.4.2.1 – Proximal Policy Optimization – PPO
1.4.4.2.2 – Deep Deterministic Policy Gradient – DDPG
1.4.4.2.3 – Twin Delayed DDPG – TD3
1.4.4.2.4 – Soft Actor-Critic – SAC
além do gradiente de política básico
Métodos avançados de Actor-Critic melhoram estabilidade e eficiência de amostras. Diferente de A2C/A3C, introduzem técnicas para limitar mudanças na política. Primeiramente, evitam atualizações destrutivas que degradam desempenho. Além disso, permitem múltiplas atualizações com os mesmos dados. Por exemplo, PPO, TRPO e SAC são algoritmos modernos.
otimização de política proximal (ppo)
PPO é o algoritmo mais utilizado atualmente por sua simplicidade e robustez. Primeiramente, limita mudanças na política com clipping de razão de probabilidade. Além disso, mantém política próxima da anterior durante atualizações. Por exemplo, evita colapsos de desempenho comuns em gradiente de política. É estável e eficiente.
soft actor-critic (sac)
SAC é um algoritmo off-policy para ações contínuas com maximização de entropia. Primeiramente, adiciona termo de entropia para encorajar exploração. Além disso, aprende duas funções Q para reduzir superestimação. Por exemplo, usado em robótica e controle contínuo. É eficiente e estável.
impacto e aplicações modernas
Métodos avançados dominam aplicações práticas de aprendizado por reforço. Primeiramente, PPO é padrão em jogos, robótica e simulações. Além disso, SAC é preferido para controle contínuo. Por exemplo, usado em veículos autônomos e manipulação robótica. Para iniciantes, mostram a evolução dos métodos Actor-Critic. São o estado da arte em reinforcement learning.