Métodos de gradiente de política

Banco Imobiliário
1.4.3 – Metodos Baseados em Politica
1.4.3.1 – Metodos de Gradiente de Politica
1.4.3.1.1 – REINFORCE – Monte Carlo Policy Gradient
1.4.3.1.2 – Policy Gradient com Linha de Base
LEGENDA
Principal
Ramo
Metodo
Problemas
Modelo
Arquitetura

aprendendo ajustando parâmetros

Métodos de gradiente de política otimizam a política através de subida de gradiente. Diferente de métodos baseados em valor, eles atualizam a política diretamente com amostras. Primeiramente, coletam trajetórias usando a política atual no ambiente. Além disso, calculam gradiente que aponta na direção de maior recompensa. Por exemplo, ações que levaram a retornos altos são reforçadas. É uma abordagem elegante e eficaz.

gradiente de política simples (reinforce)

REINFORCE é o algoritmo mais básico de gradiente de política. Primeiramente, coleta episódios completos usando a política atual. Além disso, atualiza θ = θ + α Σ ∇_θ log π_θ(a_t|s_t) G_t. Por exemplo, após cada partida, reforça ações que levaram à vitória. É simples mas tem alta variância.

reduzindo variância com linha de base

Linhas de base reduzem variância sem introduzir viés nas estimativas. Primeiramente, subtrai uma linha de base b(s_t) do retorno G_t. Além disso, b(s_t) pode ser uma função valor V(s_t) aprendida. Por exemplo, ∇_θ J(θ) ≈ Σ ∇_θ log π_θ(a_t|s_t) (G_t – V(s_t)). Reduz significativamente a variância.

vantagens e limitações

Métodos de gradiente de política funcionam para ações contínuas e políticas estocásticas. Primeiramente, convergem para ótimos locais e têm convergência garantida. Além disso, são estáveis com aproximação de funções. No entanto, têm alta variância e baixa eficiência de amostras. Por exemplo, requerem muitas interações para aprender. Para iniciantes, mostram como otimizar comportamento diretamente. É a base para algoritmos avançados como PPO.

Métodos Baseados em Política

Banco Imobiliário
1.4 – Por Reforco
1.4.3 – Metodos Baseados em Politica
1.4.3.1 – Metodos de Gradiente de Politica
LEGENDA
Principal
Ramo
Metodo
Problemas
Modelo
Arquitetura

O que é um método baseado em política?

Em aprendizado por reforço, métodos baseados em política otimizam diretamente a estratégia do agente. Essa estratégia é chamada de política \(\pi(a|s)\). Ela mapeia cada estado para uma distribuição de probabilidade sobre ações. Diferentemente dos métodos baseados em valor, nenhum Q-valor é estimado. Por conseguinte, a política é aprendida sem um passo intermediário de valor. Isso é especialmente útil para ações contínuas ou ambientes estocásticos. Primeiramente, a política pode ser representada por uma rede neural. Então, ajustamos seus parâmetros \(\theta\) para maximizar a recompensa esperada. Essa abordagem é chamada de Policy Gradient (PG). Além disso, ela lida naturalmente com problemas de exploração. A política estocástica sempre tem alguma chance de explorar ações diferentes. Consequentemente, métodos baseados em política são mais robustos em muitos cenários.

Características e arquitetura dos modelos

Nesses modelos, a arquitetura principal é uma rede neural que recebe o estado. Ela produz as probabilidades de cada ação (softmax) ou parâmetros de uma distribuição gaussiana. Por exemplo, para ações discretas, a saída é um vetor de logits. A função softmax converte esses logits em probabilidades. Já para ações contínuas, a rede gera média e variância. Uma amostra da distribuição normal é usada para escolher a ação. Os hiperparâmetros comuns incluem a taxa de aprendizado (\(\alpha\)), fator de desconto (\(\gamma\)), e a entropia regularizadora. A entropia encoraja exploração ao penalizar políticas muito determinísticas. Frequentemente, usa-se o algoritmo REINFORCE ou o Actor-Critic. O REINFORCE é um método de gradiente de política simples. Porém, ele sofre com alta variância nas estimativas. Uma solução é adicionar um baseline (valor do estado). Isso é feito naturalmente no Actor-Critic. No Actor-Critic, duas redes são usadas: o ator (política) e o crítico (valor). O crítico estima \(V(s)\) para reduzir a variância. Então, o gradiente da política é calculado com a vantagem \(A(s,a)\). Essa arquitetura é frequentemente empregada em problemas complexos. Portanto, métodos baseados em política são muito flexíveis.

Fórmulas matemáticas fundamentais

O objetivo é maximizar a recompensa esperada \(J(\theta)\). A política é parametrizada por \(\theta\). O gradiente da política é dado pelo teorema do gradiente da política: \[ \nabla_\theta J(\theta) = \mathbb{E}_{\pi_\theta} \left[ \nabla_\theta \log \pi_\theta(a|s) \cdot Q^{\pi_\theta}(s,a) \right] \] Para reduzir variância, substituímos \(Q\) pela vantagem \(A(s,a)\). A vantagem é definida como \(A(s,a) = Q(s,a) – V(s)\). No REINFORCE com baseline, a atualização é: \[ \theta \leftarrow \theta + \alpha \cdot \nabla_\theta \log \pi_\theta(a|s) \cdot (G_t – V(s)) \] Aqui, \(G_t\) é o retorno acumulado a partir do tempo \(t\). O crítico é treinado para minimizar o erro quadrático médio com \(G_t\). A perda do crítico é \(\mathcal{L}_V = (G_t – V(s))^2\). Já a perda do ator é \(-\log \pi_\theta(a|s) \cdot (G_t – V(s))\). Adicionalmente, adiciona-se um termo de entropia: \(\mathcal{H} = -\sum \pi_\theta(a|s) \log \pi_\theta(a|s)\). Isso incentiva a exploração e evita convergência prematura.

Exemplo clássico: Lunar Lander com Policy Gradient

Enunciado: Um foguete deve pousar suavemente na plataforma de pouso. O ambiente LunarLander-v2 (gymnasium) tem 8 estados contínuos e 4 ações discretas. A recompensa é positiva por tocar a plataforma e negativa por combustível ou quedas. O episódio termina com pouso bem-sucedido (recompensa +100) ou acidente (-100). Você deve implementar um agente baseado em política (Actor-Critic) que aprenda a pousar. Treine por 1000 episódios e mostre a evolução da recompensa média. Gere também um gráfico da perda do crítico e da entropia da política. O código implementa um agente Actor-Critic para o Lunar Lander. A política (ator) é aprendida diretamente, sem estimar Q-valores. A vantagem é calculada usando o crítico como baseline. Isso reduz a variância e acelera o aprendizado. Três gráficos são gerados: recompensa, perdas e entropia. Métodos baseados em política são ideais para este problema. Eles convergem para soluções robustas de pouso. Portanto, este exemplo ilustra perfeitamente o conceito.