Agente, Ambiente, Ação, Estado

bebê aprendendo a andar
1.4 – Por Reforco
1.4.1 – Fundamentos Por Reforco
1.4.1.1 – Agente, Ambiente, Acao, Estado
LEGENDA
Principal
Ramo
Metodo
Problemas
Modelo
Arquitetura

Aprendizado por reforço: agente, ambiente, ação e estado

O aprendizado por reforço é um tipo de machine learning. Ele ensina um agente a tomar decisões. O agente aprende por tentativa e erro. Ele recebe recompensas ou punições. Esse método inspira-se na psicologia comportamental. Portanto, as pessoas usam muito este método em robótica e jogos.

Os quatro elementos fundamentais

Primeiramente, o agente é quem aprende e age. Ele observa o ambiente ao redor. O ambiente compreende tudo com que o agente interage. Por exemplo, uma ação representa uma escolha possível do agente. Mover para esquerda ou direita seria um exemplo disso. O estado descreve a situação atual. Consequentemente, a cada ação, o estado muda. Além disso, o ambiente fornece uma recompensa numérica. Assim, o objetivo do agente é maximizar a soma das recompensas. Dessa forma, o agente melhora continuamente seu comportamento.

Os pesquisadores modelam esses quatro elementos matematicamente. A política π define a estratégia do agente. Ela mapeia estados para ações. A função valor V(s) estima a recompensa futura. Os especialistas denotam isso frequentemente por \( V(s) = \mathbb{E} \left[ \sum_{t=0}^{\infty} \gamma^t r_t \mid s_0 = s \right] \). O fator γ é um hiperparâmetro entre 0 e 1. Ele desconta recompensas distantes. Portanto, valores baixos de γ priorizam ganhos imediatos.

Hiperparâmetros e arquitetura comum

A taxa de aprendizado α controla a velocidade de atualização. O fator de desconto γ foi mencionado antes. A taxa de exploração ε usa a estratégia ε-greedy. Em cada passo, o agente escolhe ação aleatória com probabilidade ε. Caso contrário, ele escolhe a melhor ação conhecida. Essa abordagem equilibra exploração e explotação. Os engenheiros usam redes neurais profundas frequentemente. Essas redes aproximam a função valor ou política. Essa arquitetura chama-se DQN (Deep Q-Network). Consequentemente, os profissionais resolvem problemas complexos com essa técnica.

A equação de Bellman ocupa lugar central no aprendizado. Nós a escrevemos como \( Q(s,a) = r + \gamma \max_{a’} Q(s’, a’) \). Aqui Q(s,a) é o valor de agir em um estado. O erro temporal (TD error) é calculado assim: \( \delta = r + \gamma \max_{a’} Q(s’, a’) – Q(s,a) \). A atualização do Q-valor segue a fórmula \( Q(s,a) \leftarrow Q(s,a) + \alpha \delta \). Essas fórmulas constituem a base de muitos algoritmos. Além disso, elas permitem aprendizado online eficiente.

Exemplo clássico: o labirinto do rato faminto

Considere um rato em um labirinto 4×4. O rato (agente) quer encontrar o queijo. A recompensa do queijo é +10. Ele pode mover-se para cima, baixo, esquerda ou direita. Porém, paredes bloqueiam certos movimentos. Buracos dão recompensa -5. Eles também terminam o episódio. O estado representa a posição (linha, coluna). O ambiente compreende a grade com paredes e buracos. Portanto, o objetivo do agente é aprender a política ótima. O código abaixo resolve esse problema com Q-learning.

O código implementa Q-learning clássico. O rato explora o labirinto por 500 episódios. A recompensa total cresce gradualmente. A política final mostra o caminho para o queijo. Este exemplo oferece uma introdução poderosa. Assim, você entende os fundamentos do aprendizado por reforço.

Fundamentos Por Reforço

bebê aprendendo a andar
1.4 – Por Reforco
1.4.1 – Fundamentos Por Reforco
1.4.1.1 – Agente, Ambiente, Acao, Estado
1.4.1.2 – Recompensa e Retorno
1.4.1.3 – Politica – Policy
1.4.1.4 – Funcao de Valor e Acao-Valor
1.4.1.5 – Modelo do Ambiente – Transicao e Recompensa
LEGENDA
Principal
Ramo
Metodo
Problemas
Modelo
Arquitetura

o ciclo agente-ambiente-recompensa

O ciclo fundamental do aprendizado por reforço envolve agente, ambiente, ação e recompensa. Primeiramente, o agente observa o estado atual do ambiente que o cerca. Além disso, escolhe uma ação baseada em sua política atual. O ambiente transita para um novo estado e retorna uma recompensa numérica. Por exemplo, em um jogo, o agente move uma peça (ação) e ganha pontos (recompensa). Esse ciclo se repete continuamente durante a interação. O objetivo é maximizar recompensas acumuladas ao longo do tempo.

política: a estratégia de decisão

A política é a estratégia que o agente usa para escolher ações em cada estado. Primeiramente, pode ser determinística: mesmo estado sempre leva à mesma ação. Além disso, pode ser estocástica: distribuição de probabilidades sobre ações possíveis. Por exemplo, um robô pode ter política de virar à direita em obstáculos. A política evolui conforme o agente aprende com experiências passadas. É o conhecimento aprendido que o agente aplica para tomar decisões.

função valor e função ação-valor

Função valor estima a recompensa total esperada a partir de um estado específico. Primeiramente, V(s) representa quão bom é estar em determinado estado. Além disso, Q(s,a) avalia quão boa é tomar ação a no estado s. Por exemplo, em um jogo, certas posições têm alto valor V(s). A função Q ajuda a comparar diferentes ações no mesmo estado. Essas funções guiam o agente em direção a decisões ótimas.

modelo do ambiente

O modelo do ambiente representa como o mundo responde às ações do agente. Primeiramente, modelos podem ser aprendidos ou conhecidos previamente pelo agente. Além disso, um modelo prevê próximo estado e recompensa dada ação atual. Por exemplo, um agente pode aprender a física de um jogo jogando. Modelos permitem planejamento e simulação antes da execução real. Aprendizado por reforço pode ser model-based ou model-free.