1.4.3 – Metodos Baseados em Politica
1.4.3.1 – Metodos de Gradiente de Politica
1.4.3.1.1 – REINFORCE – Monte Carlo Policy Gradient
1.4.3.1.2 – Policy Gradient com Linha de Base
aprendendo ajustando parâmetros
Métodos de gradiente de política otimizam a política através de subida de gradiente. Diferente de métodos baseados em valor, eles atualizam a política diretamente com amostras. Primeiramente, coletam trajetórias usando a política atual no ambiente. Além disso, calculam gradiente que aponta na direção de maior recompensa. Por exemplo, ações que levaram a retornos altos são reforçadas. É uma abordagem elegante e eficaz.
gradiente de política simples (reinforce)
REINFORCE é o algoritmo mais básico de gradiente de política. Primeiramente, coleta episódios completos usando a política atual. Além disso, atualiza θ = θ + α Σ ∇_θ log π_θ(a_t|s_t) G_t. Por exemplo, após cada partida, reforça ações que levaram à vitória. É simples mas tem alta variância.
reduzindo variância com linha de base
Linhas de base reduzem variância sem introduzir viés nas estimativas. Primeiramente, subtrai uma linha de base b(s_t) do retorno G_t. Além disso, b(s_t) pode ser uma função valor V(s_t) aprendida. Por exemplo, ∇_θ J(θ) ≈ Σ ∇_θ log π_θ(a_t|s_t) (G_t – V(s_t)). Reduz significativamente a variância.
vantagens e limitações
Métodos de gradiente de política funcionam para ações contínuas e políticas estocásticas. Primeiramente, convergem para ótimos locais e têm convergência garantida. Além disso, são estáveis com aproximação de funções. No entanto, têm alta variância e baixa eficiência de amostras. Por exemplo, requerem muitas interações para aprender. Para iniciantes, mostram como otimizar comportamento diretamente. É a base para algoritmos avançados como PPO.