Fundamentos Por Reforço

bebê aprendendo a andar

o ciclo agente-ambiente-recompensa

O ciclo fundamental do aprendizado por reforço envolve agente, ambiente, ação e recompensa. Primeiramente, o agente observa o estado atual do ambiente que o cerca. Além disso, escolhe uma ação baseada em sua política atual. O ambiente transita para um novo estado e retorna uma recompensa numérica. Por exemplo, em um jogo, o agente move uma peça (ação) e ganha pontos (recompensa). Esse ciclo se repete continuamente durante a interação. O objetivo é maximizar recompensas acumuladas ao longo do tempo.

política: a estratégia de decisão

A política é a estratégia que o agente usa para escolher ações em cada estado. Primeiramente, pode ser determinística: mesmo estado sempre leva à mesma ação. Além disso, pode ser estocástica: distribuição de probabilidades sobre ações possíveis. Por exemplo, um robô pode ter política de virar à direita em obstáculos. A política evolui conforme o agente aprende com experiências passadas. É o conhecimento aprendido que o agente aplica para tomar decisões.

função valor e função ação-valor

Função valor estima a recompensa total esperada a partir de um estado específico. Primeiramente, V(s) representa quão bom é estar em determinado estado. Além disso, Q(s,a) avalia quão boa é tomar ação a no estado s. Por exemplo, em um jogo, certas posições têm alto valor V(s). A função Q ajuda a comparar diferentes ações no mesmo estado. Essas funções guiam o agente em direção a decisões ótimas.

modelo do ambiente

O modelo do ambiente representa como o mundo responde às ações do agente. Primeiramente, modelos podem ser aprendidos ou conhecidos previamente pelo agente. Além disso, um modelo prevê próximo estado e recompensa dada ação atual. Por exemplo, um agente pode aprender a física de um jogo jogando. Modelos permitem planejamento e simulação antes da execução real. Aprendizado por reforço pode ser model-based ou model-free.

Por Reforço

bebê aprendendo a andar

aprendendo por tentativa e erro

Aprendizado por reforço é um paradigma onde um agente aprende interagindo com um ambiente. Diferente de supervisionado, não há exemplos de ações corretas fornecidos antecipadamente. Primeiramente, o agente toma ações e recebe recompensas ou penalidades como feedback. Além disso, ele descobre quais ações maximizam recompensas acumuladas ao longo do tempo. Por exemplo, um robô aprende a andar caindo e ajustando movimentos. O agente explora ações desconhecidas enquanto explora as que já conhece. É inspirado em como humanos e animais aprendem por tentativa e erro.

elementos fundamentais do problema

Um problema de reforço possui cinco elementos essenciais que definem a interação. Primeiramente, o agente é quem toma decisões e aprende com as consequências. Além disso, o ambiente é tudo com que o agente interage externamente. As ações são escolhas que o agente pode fazer no ambiente. O estado descreve a situação atual do ambiente observada pelo agente. A recompensa é o feedback numérico que indica sucesso ou fracasso. Por exemplo, em um jogo, estado é a tela, ações são movimentos.

exploração versus exploração

O trade-off entre exploração e exploração é central no aprendizado por reforço. Primeiramente, exploração significa experimentar ações desconhecidas para descobrir recompensas maiores. Além disso, exploração significa escolher ações já conhecidas por serem boas. Por exemplo, em um restaurante novo, explorar pratos desconhecidos ou pedir o favorito. O agente precisa equilibrar ambas para maximizar recompensas no longo prazo. Muita exploração gera perdas imediatas; pouca exploração pode perder ótimas oportunidades. Esse dilema não existe em outros paradigmas de aprendizado.

aplicações que transformaram a ia

Aprendizado por reforço alcançou feitos impressionantes em problemas complexos e desafiadores. Primeiramente, AlphaGo venceu campeões mundiais no jogo Go, considerado extremamente complexo. Além disso, sistemas de controle robótico aprendem tarefas manipulativas complexas por tentativa e erro. Veículos autônomos usam reforço para aprender comportamentos de direção seguros. Por exemplo, jogos de videogame atingem níveis sobre-humanos sem programação explícita. Na indústria, otimizam processos e alocação de recursos dinamicamente. Para iniciantes, aprendizado por reforço mostra como agentes podem aprender comportamentos complexos. É o paradigma mais próximo de como inteligência natural se desenvolve.