Proximal Policy Optimization – PPO

otimização estável de política

PPO (Proximal Policy Optimization) é o algoritmo de reforço mais utilizado atualmente. Desenvolvido pela OpenAI, ele limita mudanças bruscas na política durante atualizações. Primeiramente, usa clipping para manter nova política próxima da anterior. Além disso, permite múltiplas atualizações com os mesmos dados de experiência. Por exemplo, em jogos, treina políticas complexas com estabilidade.

mecanismo de clipping

O clipping do PPO restringe a razão de probabilidade entre políticas nova e antiga. Primeiramente, r_t(θ) = π_θ(a|s) / π_θ_old(a|s) é a razão. Além disso, clipa r_t(θ) no intervalo [1-ε, 1+ε]. Por exemplo, ε=0.2 limita mudanças a 20% por atualização. Evita atualizações destrutivas.

função objetivo do ppo

PPO maximiza uma função objetivo que combina clipping e vantagem. Primeiramente, L = E[min(r_t(θ) A_t, clip(r_t(θ), 1-ε, 1+ε) A_t)]. Além disso, inclui termo de entropia para exploração e erro de valor. Por exemplo, atualiza política e valor simultaneamente.

vantagens e aplicações

PPO é estável, simples e eficiente para uma ampla gama de problemas. Primeiramente, usado em jogos, robótica, controle e simulações. Além disso, é padrão em ambientes contínuos e discretos. Por exemplo, ChatGPT usa PPO para alinhamento com feedback humano. Para iniciantes, PPO representa o estado da arte em reforço. É a ferramenta preferida para projetos modernos.

Deixe um comentário