Métodos Avançados - Área de Trampo

4.4 – Metodos Actor-Critic
4.4.2 – Metodos Avancados
4.4.2.1 – Proximal Policy Optimization – PPO
4.4.2.2 – Deep Deterministic Policy Gradient – DDPG
4.4.2.3 – Twin Delayed DDPG – TD3
4.4.2.4 – Soft Actor-Critic – SAC

LEGENDA

Principal

Ramo

Metodo

Problemas

Modelo

Arquitetura

além do gradiente de política básico

Métodos avançados de Actor-Critic melhoram estabilidade e eficiência de amostras. Diferente de A2C/A3C, introduzem técnicas para limitar mudanças na política. Primeiramente, evitam atualizações destrutivas que degradam desempenho. Além disso, permitem múltiplas atualizações com os mesmos dados. Por exemplo, PPO, TRPO e SAC são algoritmos modernos.

otimização de política proximal (ppo)

PPO é o algoritmo mais utilizado atualmente por sua simplicidade e robustez. Primeiramente, limita mudanças na política com clipping de razão de probabilidade. Além disso, mantém política próxima da anterior durante atualizações. Por exemplo, evita colapsos de desempenho comuns em gradiente de política. É estável e eficiente.

soft actor-critic (sac)

SAC é um algoritmo off-policy para ações contínuas com maximização de entropia. Primeiramente, adiciona termo de entropia para encorajar exploração. Além disso, aprende duas funções Q para reduzir superestimação. Por exemplo, usado em robótica e controle contínuo. É eficiente e estável.

impacto e aplicações modernas

Métodos avançados dominam aplicações práticas de aprendizado por reforço. Primeiramente, PPO é padrão em jogos, robótica e simulações. Além disso, SAC é preferido para controle contínuo. Por exemplo, usado em veículos autônomos e manipulação robótica. Para iniciantes, mostram a evolução dos métodos Actor-Critic. São o estado da arte em reinforcement learning.

Indice

além do gradiente de política básico

otimização de política proximal (ppo)

soft actor-critic (sac)

impacto e aplicações modernas

Deixe um comentário Cancelar resposta