Recompensa e Retorno

cãozinho

Aprendizado por reforço: recompensa e retorno

No aprendizado por reforço, a recompensa é um sinal imediato. Ela indica se uma ação foi boa ou ruim. Por exemplo, ganhar um ponto em um jogo. O retorno, por outro lado, é a soma total das recompensas futuras. Ele considera não apenas o agora, mas também o amanhã. Portanto, o agente busca maximizar o retorno ao longo do tempo.

Definição formal de recompensa e retorno

A cada passo t, o agente recebe uma recompensa r_t. Essa recompensa é um número real. Ela pode ser positiva, negativa ou zero. O retorno G_t é definido como a soma das recompensas futuras. Frequentemente, usamos um fator de desconto γ. Assim, o retorno é escrito como \( G_t = r_{t+1} + \gamma r_{t+2} + \gamma^2 r_{t+3} + \dots = \sum_{k=0}^{\infty} \gamma^k r_{t+k+1} \). Esse fator γ está entre 0 e 1. Ele dá menos peso a recompensas distantes. Consequentemente, o agente prefere recompensas imediatas.

Uma escolha comum é γ = 0.9 ou 0.99. Valores altos incentivam planejamento de longo prazo. Valores baixos tornam o agente míope. O retorno também pode ser definido sem desconto. Nesse caso, γ = 1, mas isso exige episódios finitos. A recompensa é projetada pelo desenvolvedor. Ela guia o comportamento desejado. Por exemplo, em um jogo de xadrez, dar +1 por vitória e 0 por derrota.

Hiperparâmetros relacionados e arquitetura

Além de γ, a taxa de aprendizado α é crucial. Ela controla quão rápido o agente atualiza suas estimativas. A taxa de exploração ε também impacta o retorno. Explorar pode levar a descobrir recompensas maiores no futuro. Portanto, há um trade-off entre exploração e explotação. Redes neurais profundas aproximam a função de valor. Elas estimam o retorno esperado para cada estado ou ação. Essa arquitetura chama-se DQN (Deep Q-Network). Nela, a perda é calculada com base no erro do retorno previsto.

A equação de Bellman conecta retorno e recompensa. Para a função valor V(s), temos \( V(s) = \mathbb{E}[r + \gamma V(s’)] \). Para a função ação-valor Q(s,a), escrevemos \( Q(s,a) = \mathbb{E}[r + \gamma \max_{a’} Q(s’, a’)] \). O erro temporal (TD error) é a diferença entre o retorno estimado e o atual: \( \delta = r + \gamma \max_{a’} Q(s’, a’) – Q(s,a) \). Esse erro é usado para atualizar os parâmetros do modelo.

Exemplo clássico: o problema do bandido (k-armed bandit)

Suponha uma máquina caça-níqueis com 5 braços. Cada braço dá uma recompensa média diferente. O agente não conhece essas médias. Ele deve descobrir qual braço maximiza o retorno. Cada tentativa (ação) produz uma recompensa imediata. O objetivo é maximizar o retorno total após 1000 jogadas. O código abaixo resolve isso com uma estratégia ε-greedy. Ele também mostra gráficos da evolução do retorno médio.

O código simula um problema clássico de bandido. O agente aprende a estimar o retorno de cada ação. Com ε-greedy, ele explora braços desconhecidos. Gradualmente, o retorno médio se aproxima do ótimo. O segundo gráfico mostra a taxa de escolha do melhor braço. Esse exemplo ilustra perfeitamente os conceitos de recompensa e retorno.

Agente, Ambiente, Ação, Estado

bebê aprendendo a andar

Aprendizado por reforço: agente, ambiente, ação e estado

O aprendizado por reforço é um tipo de machine learning. Ele ensina um agente a tomar decisões. O agente aprende por tentativa e erro. Ele recebe recompensas ou punições. Esse método inspira-se na psicologia comportamental. Portanto, as pessoas usam muito este método em robótica e jogos.

Os quatro elementos fundamentais

Primeiramente, o agente é quem aprende e age. Ele observa o ambiente ao redor. O ambiente compreende tudo com que o agente interage. Por exemplo, uma ação representa uma escolha possível do agente. Mover para esquerda ou direita seria um exemplo disso. O estado descreve a situação atual. Consequentemente, a cada ação, o estado muda. Além disso, o ambiente fornece uma recompensa numérica. Assim, o objetivo do agente é maximizar a soma das recompensas. Dessa forma, o agente melhora continuamente seu comportamento.

Os pesquisadores modelam esses quatro elementos matematicamente. A política π define a estratégia do agente. Ela mapeia estados para ações. A função valor V(s) estima a recompensa futura. Os especialistas denotam isso frequentemente por \( V(s) = \mathbb{E} \left[ \sum_{t=0}^{\infty} \gamma^t r_t \mid s_0 = s \right] \). O fator γ é um hiperparâmetro entre 0 e 1. Ele desconta recompensas distantes. Portanto, valores baixos de γ priorizam ganhos imediatos.

Hiperparâmetros e arquitetura comum

A taxa de aprendizado α controla a velocidade de atualização. O fator de desconto γ foi mencionado antes. A taxa de exploração ε usa a estratégia ε-greedy. Em cada passo, o agente escolhe ação aleatória com probabilidade ε. Caso contrário, ele escolhe a melhor ação conhecida. Essa abordagem equilibra exploração e explotação. Os engenheiros usam redes neurais profundas frequentemente. Essas redes aproximam a função valor ou política. Essa arquitetura chama-se DQN (Deep Q-Network). Consequentemente, os profissionais resolvem problemas complexos com essa técnica.

A equação de Bellman ocupa lugar central no aprendizado. Nós a escrevemos como \( Q(s,a) = r + \gamma \max_{a’} Q(s’, a’) \). Aqui Q(s,a) é o valor de agir em um estado. O erro temporal (TD error) é calculado assim: \( \delta = r + \gamma \max_{a’} Q(s’, a’) – Q(s,a) \). A atualização do Q-valor segue a fórmula \( Q(s,a) \leftarrow Q(s,a) + \alpha \delta \). Essas fórmulas constituem a base de muitos algoritmos. Além disso, elas permitem aprendizado online eficiente.

Exemplo clássico: o labirinto do rato faminto

Considere um rato em um labirinto 4×4. O rato (agente) quer encontrar o queijo. A recompensa do queijo é +10. Ele pode mover-se para cima, baixo, esquerda ou direita. Porém, paredes bloqueiam certos movimentos. Buracos dão recompensa -5. Eles também terminam o episódio. O estado representa a posição (linha, coluna). O ambiente compreende a grade com paredes e buracos. Portanto, o objetivo do agente é aprender a política ótima. O código abaixo resolve esse problema com Q-learning.

O código implementa Q-learning clássico. O rato explora o labirinto por 500 episódios. A recompensa total cresce gradualmente. A política final mostra o caminho para o queijo. Este exemplo oferece uma introdução poderosa. Assim, você entende os fundamentos do aprendizado por reforço.