Fundamentos Por Reforço - Área de Trampo

4 – Por Reforco
4.1 – Fundamentos Por Reforco
4.1.1 – Agente, Ambiente, Acao, Estado
4.1.2 – Recompensa e Retorno
4.1.3 – Politica – Policy
4.1.4 – Funcao de Valor e Acao-Valor
4.1.5 – Modelo do Ambiente – Transicao e Recompensa

LEGENDA

Principal

Ramo

Metodo

Problemas

Modelo

Arquitetura

o ciclo agente-ambiente-recompensa

O ciclo fundamental do aprendizado por reforço envolve agente, ambiente, ação e recompensa. Primeiramente, o agente observa o estado atual do ambiente que o cerca. Além disso, escolhe uma ação baseada em sua política atual. O ambiente transita para um novo estado e retorna uma recompensa numérica. Por exemplo, em um jogo, o agente move uma peça (ação) e ganha pontos (recompensa). Esse ciclo se repete continuamente durante a interação. O objetivo é maximizar recompensas acumuladas ao longo do tempo.

política: a estratégia de decisão

A política é a estratégia que o agente usa para escolher ações em cada estado. Primeiramente, pode ser determinística: mesmo estado sempre leva à mesma ação. Além disso, pode ser estocástica: distribuição de probabilidades sobre ações possíveis. Por exemplo, um robô pode ter política de virar à direita em obstáculos. A política evolui conforme o agente aprende com experiências passadas. É o conhecimento aprendido que o agente aplica para tomar decisões.

função valor e função ação-valor

Função valor estima a recompensa total esperada a partir de um estado específico. Primeiramente, V(s) representa quão bom é estar em determinado estado. Além disso, Q(s,a) avalia quão boa é tomar ação a no estado s. Por exemplo, em um jogo, certas posições têm alto valor V(s). A função Q ajuda a comparar diferentes ações no mesmo estado. Essas funções guiam o agente em direção a decisões ótimas.

modelo do ambiente

O modelo do ambiente representa como o mundo responde às ações do agente. Primeiramente, modelos podem ser aprendidos ou conhecidos previamente pelo agente. Além disso, um modelo prevê próximo estado e recompensa dada ação atual. Por exemplo, um agente pode aprender a física de um jogo jogando. Modelos permitem planejamento e simulação antes da execução real. Aprendizado por reforço pode ser model-based ou model-free.

Indice

o ciclo agente-ambiente-recompensa

política: a estratégia de decisão

função valor e função ação-valor

modelo do ambiente

Deixe um comentário Cancelar resposta