Métodos de Monte Carlo para problemas baseados em valor

bebê aprendendo a andar
1.4 – Por Reforco
1.4.2 – Metodos Baseados em Valor
1.4.2.2 – Metodos de Monte Carlo
LEGENDA
Principal
Ramo
Metodo
Problemas
Modelo
Arquitetura

Monte Carlo é uma família de métodos estatísticos. Eles usam amostragem aleatória para estimar quantidades. No aprendizado por reforço, Monte Carlo aprende com episódios completos. Primeiramente, o agente interage com o ambiente até o fim. Depois, ele calcula o retorno real de cada estado visitado. Por conseguinte, não é necessário conhecer o modelo do ambiente.

Características dos métodos de Monte Carlo

Monte Carlo só funciona para tarefas episódicas. Cada episódio deve ter um fim definido. A estimativa da função valor é feita pela média dos retornos observados. Frequentemente, usamos a média incremental: \( V(s) \leftarrow V(s) + \alpha (G_t – V(s)) \). Aqui G_t é o retorno real do episódio. Uma vantagem importante é a ausência de viés. Contudo, a variância pode ser alta. Muitos episódios são necessários para convergência.

A atualização pode ser first-visit ou every-visit. No first-visit, apenas a primeira ocorrência de cada estado conta. No every-visit, todas as ocorrências são usadas. A escolha entre eles é um hiperparâmetro. Outro hiperparâmetro é a taxa de aprendizado α. Valores típicos são 0.1 ou 0.01. A política pode ser fixa (avaliação) ou melhorada (controle). O método Monte Carlo sem modelo é muito poderoso. Ele é aplicado em jogos como Blackjack e Go.

Arquitetura e fórmulas matemáticas

A arquitetura armazena V(s) ou Q(s,a) em uma tabela. Para cada episódio, guardamos estados, ações e recompensas. O retorno é calculado somando recompensas futuras com desconto: \( G_t = \sum_{k=0}^{T-t-1} \gamma^k r_{t+k+1} \). A atualização first-visit é \( V(s) \leftarrow \frac{1}{N(s)} \sum_{i=1}^{N(s)} G_t^{(i)} \). Isso é equivalente à média amostral. Para controle, usamos a estratégia ε-greedy. A política é melhorada após cada episódio.

A equação de atualização incremental é \( V(s) \leftarrow V(s) + \alpha (G_t – V(s)) \). O erro de Monte Carlo é \( \delta = G_t – V(s) \). Diferente do TD learning, não há bootstrap. Isso significa que o valor estimado não depende de outras estimativas. Portanto, Monte Carlo não sofre com viés de inicialização. Contudo, a variância é maior e a convergência mais lenta. O método é ideal quando o ambiente é estocástico mas episódico.

Exemplo clássico: Blackjack simplificado

Imagine uma versão simples do jogo Blackjack. O jogador vê sua soma (12-21) e a carta do dealer (2-11). Ele pode pedir (hit) ou parar (stick). Pedir mais de 21 resulta em derrota. O objetivo é vencer o dealer sem estourar. Recompensas: +1 por vitória, -1 por derrota, 0 por empate. O ambiente é estocástico e episódico. O código abaixo usa Monte Carlo para aprender a função valor.

Iteração de Política

Banco Imobiliário

alternando avaliação e melhoria

Iteração de política alterna entre avaliar a política atual e melhorá-la iterativamente. Diferente da iteração de valor, ela mantém uma política explícita durante todo o processo. Primeiramente, avalia a política atual resolvendo as equações de Bellman linearmente. Além disso, melhora a política escolhendo ações greedy baseadas nos valores avaliados. Por exemplo, melhora iterativamente uma política até convergir para a ótima. O processo repete até que a política não mude mais.

avaliação da política

Avaliação da política resolve V_π(s) = E[recompensa + γ V_π(s’)] para a política atual. Primeiramente, pode resolver sistema linear diretamente para estados discretos. Além disso, pode usar iteração iterativa para problemas maiores. Por exemplo, calcular valores de estados seguindo política fixa no labirinto. Converge para valores consistentes com a política atual.

melhoria e convergência

Melhoria da política atualiza π(s) = argmax_a Q_π(s,a) após avaliação. Primeiramente, a nova política é greedy em relação aos valores atuais. Além disso, teorema da melhoria garante política melhor ou igual à anterior. Por exemplo, após avaliar, escolhe ações que maximizam Q(s,a). Converge para política ótima em número finito de iterações. É mais estável que iteração de valor para alguns problemas.

vantagens e uso prático

Iteração de política converge em menos iterações que iteração de valor tipicamente. Primeiramente, cada iteração é mais cara, mas número de iterações menor. Além disso, é mais estável numericamente para problemas mal condicionados. Por exemplo, usada em planejamento de controle ótimo com modelo conhecido. Para iniciantes, mostra como política e valor evoluem juntos. É a base para algoritmos modernos de otimização de políticas.