Politica – Policy

Banco Imobiliário
1.4 – Por Reforco
1.4.1 – Fundamentos Por Reforco
1.4.1.3 – Politica – Policy
LEGENDA
Principal
Ramo
Metodo
Problemas
Modelo
Arquitetura

Aprendizado por reforço: política (policy)

A política é o cérebro do agente. Ela define qual ação tomar em cada estado. Podemos pensar nela como uma estratégia ou um mapa. Sem uma política, o agente age aleatoriamente. Portanto, aprender uma boa política é o objetivo principal. A política pode ser determinística ou estocástica.

Tipos de política e sua representação

Uma política determinística mapeia cada estado a uma única ação. Escrevemos isso como \( a = \pi(s) \). Por exemplo, em um labirinto, sempre vá para a direita. Uma política estocástica, por outro lado, dá probabilidades para cada ação. Representamos isso como \( \pi(a|s) = P(A_t = a | S_t = s) \). Essa abordagem é útil para explorar. Consequentemente, políticas estocásticas evitam ficar presas em mínimos locais.

A política pode ser armazenada como uma tabela. Em estados discretos, isso é simples. Porém, em espaços contínuos, usamos redes neurais. A rede recebe o estado e retorna ações. Essa arquitetura chama-se Policy Network. Os hiperparâmetros incluem o tamanho das camadas escondidas. Por exemplo, 64 ou 128 neurônios. A taxa de aprendizado α também é crucial. Além disso, usamos um parâmetro de entropia para incentivar exploração.

Como as políticas são aprendidas e avaliadas

O teorema do gradiente da política é fundamental. Ele permite atualizar a política diretamente. A cada passo, ajustamos π para aumentar o retorno esperado. A fórmula do gradiente é \( \nabla_\theta J(\theta) = \mathbb{E}_\pi \left[ \nabla_\theta \log \pi_\theta(a|s) \cdot G_t \right] \). Aqui θ são os parâmetros da política. Esse método é chamado de REINFORCE. Uma variante comum usa um baseline para reduzir variância. O baseline geralmente é a função valor V(s).

Outra abordagem é a comparação entre políticas. Dizemos que π é melhor que π’ se seu retorno esperado for maior. A equação de Bellman para políticas é \( V^\pi(s) = \sum_a \pi(a|s) \sum_{s’,r} p(s’,r|s,a) [r + \gamma V^\pi(s’)] \). Essa equação é resolvida por iteração de política. Primeiro, avaliamos a política atual. Depois, a melhoramos guloso. Esse processo se repete até a convergência.

Exemplo clássico: subindo a montanha (Mountain Car)

Um carro fraco tenta subir uma montanha íngreme. Ele não consegue ir direto ao topo. Primeiro, precisa ir para trás ganhar inércia. A cada passo, o agente acelera para esquerda, direita ou neutro. A recompensa é -1 por cada passo até o topo. O estado é a posição e velocidade. O objetivo é aprender uma política que minimize os passos. O código abaixo implementa esse problema com gradiente de política.

O código implementa REINFORCE para o Mountain Car. O agente aprende uma política estocástica linear. Inicialmente, ele age aleatoriamente e demora muitos passos. Com o tempo, a política melhora e o carro sobe mais rápido. O segundo gráfico mostra a preferência da política final. Regiões em azul indicam tendência a acelerar para a direita. Este exemplo demonstra como políticas são aprendidas na prática.

Recompensa e Retorno

cãozinho
1.4 – Por Reforco
1.4.1 – Fundamentos Por Reforco
1.4.1.2 – Recompensa e Retorno
LEGENDA
Principal
Ramo
Metodo
Problemas
Modelo
Arquitetura

Aprendizado por reforço: recompensa e retorno

No aprendizado por reforço, a recompensa é um sinal imediato. Ela indica se uma ação foi boa ou ruim. Por exemplo, ganhar um ponto em um jogo. O retorno, por outro lado, é a soma total das recompensas futuras. Ele considera não apenas o agora, mas também o amanhã. Portanto, o agente busca maximizar o retorno ao longo do tempo.

Definição formal de recompensa e retorno

A cada passo t, o agente recebe uma recompensa r_t. Essa recompensa é um número real. Ela pode ser positiva, negativa ou zero. O retorno G_t é definido como a soma das recompensas futuras. Frequentemente, usamos um fator de desconto γ. Assim, o retorno é escrito como \( G_t = r_{t+1} + \gamma r_{t+2} + \gamma^2 r_{t+3} + \dots = \sum_{k=0}^{\infty} \gamma^k r_{t+k+1} \). Esse fator γ está entre 0 e 1. Ele dá menos peso a recompensas distantes. Consequentemente, o agente prefere recompensas imediatas.

Uma escolha comum é γ = 0.9 ou 0.99. Valores altos incentivam planejamento de longo prazo. Valores baixos tornam o agente míope. O retorno também pode ser definido sem desconto. Nesse caso, γ = 1, mas isso exige episódios finitos. A recompensa é projetada pelo desenvolvedor. Ela guia o comportamento desejado. Por exemplo, em um jogo de xadrez, dar +1 por vitória e 0 por derrota.

Hiperparâmetros relacionados e arquitetura

Além de γ, a taxa de aprendizado α é crucial. Ela controla quão rápido o agente atualiza suas estimativas. A taxa de exploração ε também impacta o retorno. Explorar pode levar a descobrir recompensas maiores no futuro. Portanto, há um trade-off entre exploração e explotação. Redes neurais profundas aproximam a função de valor. Elas estimam o retorno esperado para cada estado ou ação. Essa arquitetura chama-se DQN (Deep Q-Network). Nela, a perda é calculada com base no erro do retorno previsto.

A equação de Bellman conecta retorno e recompensa. Para a função valor V(s), temos \( V(s) = \mathbb{E}[r + \gamma V(s’)] \). Para a função ação-valor Q(s,a), escrevemos \( Q(s,a) = \mathbb{E}[r + \gamma \max_{a’} Q(s’, a’)] \). O erro temporal (TD error) é a diferença entre o retorno estimado e o atual: \( \delta = r + \gamma \max_{a’} Q(s’, a’) – Q(s,a) \). Esse erro é usado para atualizar os parâmetros do modelo.

Exemplo clássico: o problema do bandido (k-armed bandit)

Suponha uma máquina caça-níqueis com 5 braços. Cada braço dá uma recompensa média diferente. O agente não conhece essas médias. Ele deve descobrir qual braço maximiza o retorno. Cada tentativa (ação) produz uma recompensa imediata. O objetivo é maximizar o retorno total após 1000 jogadas. O código abaixo resolve isso com uma estratégia ε-greedy. Ele também mostra gráficos da evolução do retorno médio.

O código simula um problema clássico de bandido. O agente aprende a estimar o retorno de cada ação. Com ε-greedy, ele explora braços desconhecidos. Gradualmente, o retorno médio se aproxima do ótimo. O segundo gráfico mostra a taxa de escolha do melhor braço. Esse exemplo ilustra perfeitamente os conceitos de recompensa e retorno.