1 – Aprendizado de Maquina
1.4.1 – Fundamentos Por Reforco
1.4.2 – Metodos Baseados em Valor
1.4.3 – Metodos Baseados em Politica
1.4.4 – Metodos Actor-Critic
1.4.5 – Exploracao vs. Explotacao
1.4.6 – Aprendizado por Reforco Multiagente
aprendendo por tentativa e erro
Aprendizado por reforço é um paradigma onde um agente aprende interagindo com um ambiente. Diferente de supervisionado, não há exemplos de ações corretas fornecidos antecipadamente. Primeiramente, o agente toma ações e recebe recompensas ou penalidades como feedback. Além disso, ele descobre quais ações maximizam recompensas acumuladas ao longo do tempo. Por exemplo, um robô aprende a andar caindo e ajustando movimentos. O agente explora ações desconhecidas enquanto explora as que já conhece. É inspirado em como humanos e animais aprendem por tentativa e erro.
elementos fundamentais do problema
Um problema de reforço possui cinco elementos essenciais que definem a interação. Primeiramente, o agente é quem toma decisões e aprende com as consequências. Além disso, o ambiente é tudo com que o agente interage externamente. As ações são escolhas que o agente pode fazer no ambiente. O estado descreve a situação atual do ambiente observada pelo agente. A recompensa é o feedback numérico que indica sucesso ou fracasso. Por exemplo, em um jogo, estado é a tela, ações são movimentos.
exploração versus exploração
O trade-off entre exploração e exploração é central no aprendizado por reforço. Primeiramente, exploração significa experimentar ações desconhecidas para descobrir recompensas maiores. Além disso, exploração significa escolher ações já conhecidas por serem boas. Por exemplo, em um restaurante novo, explorar pratos desconhecidos ou pedir o favorito. O agente precisa equilibrar ambas para maximizar recompensas no longo prazo. Muita exploração gera perdas imediatas; pouca exploração pode perder ótimas oportunidades. Esse dilema não existe em outros paradigmas de aprendizado.
aplicações que transformaram a ia
Aprendizado por reforço alcançou feitos impressionantes em problemas complexos e desafiadores. Primeiramente, AlphaGo venceu campeões mundiais no jogo Go, considerado extremamente complexo. Além disso, sistemas de controle robótico aprendem tarefas manipulativas complexas por tentativa e erro. Veículos autônomos usam reforço para aprender comportamentos de direção seguros. Por exemplo, jogos de videogame atingem níveis sobre-humanos sem programação explícita. Na indústria, otimizam processos e alocação de recursos dinamicamente. Para iniciantes, aprendizado por reforço mostra como agentes podem aprender comportamentos complexos. É o paradigma mais próximo de como inteligência natural se desenvolve.