Métodos Baseados em Valor

Balança
1.4 – Por Reforco
1.4.2 – Metodos Baseados em Valor
1.4.2.1 – Programacao Dinamica
1.4.2.2 – Metodos de Monte Carlo
1.4.2.3 – Temporal Difference – TD
1.4.2.4 – Aproximacao de Funcoes
LEGENDA
Principal
Ramo
Metodo
Problemas
Modelo
Arquitetura

aprendendo a função valor primeiro

Métodos baseados em valor aprendem a função valor para depois derivar a política. Diferente de métodos diretos, eles estimam Q(s,a) ou V(s) primeiro. Primeiramente, a política ótima é derivada escolhendo ações com maior valor. Além disso, não há representação explícita da política durante o aprendizado. Por exemplo, Q-learning aprende Q(s,a) e depois age greedy sobre ele. A política é implícita na função valor aprendida.

q-learning: o algoritmo fundamental

Q-learning é o algoritmo mais conhecido de métodos baseados em valor. Ele aprende a função ação-valor Q(s,a) usando a equação de Bellman. Primeiramente, atualiza Q(s,a) com base em recompensa imediata e máximo Q futuro. Além disso, é off-policy: aprende política ótima independente da política comportamental. Por exemplo, pode aprender com dados gerados por políticas exploratórias. Converge para política ótima sob condições adequadas.

deep q-networks (dqn)

DQN combina Q-learning com redes neurais profundas para problemas de alta dimensão. Primeiramente, usa redes neurais para aproximar Q(s,a) em espaços contínuos de estado. Além disso, introduz replay de experiências e rede alvo para estabilidade. Por exemplo, jogos de Atari são resolvidos apenas com pixels como entrada. DQN marcou o início do deep reinforcement learning moderno.

vantagens e limitações

Métodos baseados em valor são eficientes para problemas com ações discretas. Primeiramente, aprendem valores que permitem planejamento implícito sem modelo. Além disso, são off-policy, reutilizando experiências de qualquer política. No entanto, não lidam bem com ações contínuas e grandes espaços. Para iniciantes, mostram como avaliar ações através de valores aprendidos. É a base para muitos algoritmos de reforço modernos.

Modelo do Ambiente – Transicao e Recompensa

cão no parque
1.4 – Por Reforco
1.4.1 – Fundamentos Por Reforco
1.4.1.5 – Modelo do Ambiente – Transicao e Recompensa
LEGENDA
Principal
Ramo
Metodo
Problemas
Modelo
Arquitetura

Modelo do ambiente: transição e recompensa

O modelo do ambiente é o coração do aprendizado por reforço. Ele define como o mundo reage às ações do agente. Primeiramente, a função de transição prevê o próximo estado. Em segundo lugar, a função de recompensa avalia o resultado imediato. Sem esse modelo, o agente age no escuro. Por conseguinte, modelar o ambiente é essencial para planejamento eficiente.

Função de transição de estados

A transição descreve a dinâmica do ambiente. Ela é denotada por \( p(s’, r | s, a) \). Essa fórmula lê-se “probabilidade de ir para s’ com recompensa r”. Frequentemente, usamos a forma determinística \( s’ = T(s, a) \). Ambientes reais, contudo, são estocásticos. Por exemplo, um robô pode escorregar. A transição é aprendida ou fornecida antecipadamente. Esse conhecimento é usado para simular o futuro.

A função de transição é uma distribuição de probabilidade. Portanto, a soma sobre todos os s’ e r é igual a 1. Matematicamente: \( \sum_{s’} \sum_{r} p(s’, r | s, a) = 1 \). Essa propriedade é conservada em ambientes bem definidos. Modelos tabulares armazenam essas probabilidades. Modelos neurais, por outro lado, as aproximam continuamente.

Função de recompensa imediata

A recompensa é um escalar que guia o comportamento. Ela pode ser determinística ou estocástica. A recompensa esperada é calculada como \( r(s,a) = \mathbb{E}[R | s,a] = \sum_r r \sum_{s’} p(s’, r | s, a) \). Em problemas simples, a recompensa é dada diretamente. Por exemplo, +1 por vencer e 0 por perder. Projetar uma boa recompensa é uma arte. Recompensas mal definidas causam comportamentos indesejados.

Hiperparâmetros importantes incluem o fator de desconto γ. Ele pondera recompensas futuras. Um modelo também tem parâmetros de confiança. Ambientes simulados usam um horizonte de planejamento. Modelos aprendidos têm uma taxa de atualização α. A arquitetura comum é uma rede neural. Ela recebe estado e ação como entrada. Suas saídas são o próximo estado e a recompensa.

Exemplo clássico: o mundo da grade 4×4

Imagine uma grade 4×4 com um tesouro escondido. O agente começa no canto superior esquerdo. O tesouro está no canto inferior direito. Cada movimento custa -0.1 (recompensa negativa). Encontrar o tesouro dá +10. Paredes bloqueiam algumas células (transição inválida). O ambiente é determinístico: a ação sempre funciona. O objetivo é aprender o caminho ótimo. O código abaixo modela explicitamente transição e recompensa.