Monte Carlo sem exploração de inícios

1.4.2 – Metodos Baseados em Valor
1.4.2.2 – Metodos de Monte Carlo
1.4.2.2.2 – Monte Carlo sem exploracao de inicios
LEGENDA
Principal
Ramo
Metodo
Problemas
Modelo
Arquitetura

Nem todo ambiente permite exploração de inícios. Muitos problemas têm um estado inicial fixo. Por exemplo, um jogo sempre começa do mesmo ponto. Nesses casos, precisamos de outras estratégias de exploração. Primeiramente, usamos políticas estocásticas como ε-greedy. Em segundo lugar, garantimos que todas as ações sejam tentadas. Por conseguinte, o agente aprende mesmo com início fixo.

Características da arquitetura

A arquitetura mantém uma política suave (soft policy). Isso significa que toda ação tem probabilidade > 0. Frequentemente, usamos ε-greedy ou softmax. A função Q(s,a) é aprendida por Monte Carlo. Contudo, a política usada para gerar episódios é diferente da política alvo. Esse é o conceito de off-policy learning. A política de comportamento (behavior) explora mais. A política alvo (target) é a ótima que queremos aprender. A razão de importância (importance sampling) corrige a diferença.

A atualização off-policy usa pesos de importância. A fórmula é \( \rho_{t:T-1} = \prod_{k=t}^{T-1} \frac{\pi(a_k|s_k)}{b(a_k|s_k)} \). Esse peso ajusta o retorno amostrado. O estimador é \( V(s) = \frac{\sum_{t} \rho_{t:T-1} G_t}{\sum_{t} \rho_{t:T-1}} \). A variância pode ser alta com muitos termos. Por isso, usamos weighted importance sampling. Ele tem viés mas variância menor. Outra abordagem é on-policy com ε-greedy. Nela, a política de comportamento é a mesma alvo.

Hiperparâmetros e fórmulas matemáticas

Os hiperparâmetros principais são ε e γ. A taxa de exploração ε típica é 0.1. O fator de desconto γ é 0.95 ou 0.99. Para off-policy, usamos α (taxa aprendizado). A atualização incremental é \( Q(s,a) \leftarrow Q(s,a) + \alpha \rho (G_t – Q(s,a)) \). A política ε-greedy é definida como \( \pi(a|s) = 1 – \epsilon + \frac{\epsilon}{|A|} \) para a ação ótima. Para outras ações, \( \pi(a|s) = \frac{\epsilon}{|A|} \). Isso garante exploração contínua.

O erro de Monte Carlo on-policy é \( \delta = G_t – Q(s,a) \). No off-policy, o erro é ponderado por ρ. A convergência é garantida se exploração continuar. Contudo, a variância pode ser alta. Por isso, métodos de TD são preferidos na prática. Ainda assim, Monte Carlo sem exploring starts é importante. Ele é usado em jogos como Blackjack e Poker.

Exemplo clássico: Blackjack com início fixo

Considere o Blackjack com estado inicial sempre o mesmo. O jogador recebe duas cartas e vê uma do dealer. Ele não pode reiniciar em posições aleatórias. Portanto, exploring starts é impossível. Usamos ε-greedy para garantir exploração. O objetivo é aprender a função valor. O código abaixo implementa Monte Carlo on-policy com ε-greedy. Ele resolve o Blackjack sem exploring starts.

Deixe um comentário