Por Reforço

bebê aprendendo a andar
1 – Aprendizado de Maquina
1.4 – Por Reforco
1.4.1 – Fundamentos Por Reforco
1.4.2 – Metodos Baseados em Valor
1.4.3 – Metodos Baseados em Politica
1.4.4 – Metodos Actor-Critic
1.4.5 – Exploracao vs. Explotacao
1.4.6 – Aprendizado por Reforco Multiagente
LEGENDA
Principal
Ramo
Metodo
Problemas
Modelo
Arquitetura

aprendendo por tentativa e erro

Aprendizado por reforço é um paradigma onde um agente aprende interagindo com um ambiente. Diferente de supervisionado, não há exemplos de ações corretas fornecidos antecipadamente. Primeiramente, o agente toma ações e recebe recompensas ou penalidades como feedback. Além disso, ele descobre quais ações maximizam recompensas acumuladas ao longo do tempo. Por exemplo, um robô aprende a andar caindo e ajustando movimentos. O agente explora ações desconhecidas enquanto explora as que já conhece. É inspirado em como humanos e animais aprendem por tentativa e erro.

elementos fundamentais do problema

Um problema de reforço possui cinco elementos essenciais que definem a interação. Primeiramente, o agente é quem toma decisões e aprende com as consequências. Além disso, o ambiente é tudo com que o agente interage externamente. As ações são escolhas que o agente pode fazer no ambiente. O estado descreve a situação atual do ambiente observada pelo agente. A recompensa é o feedback numérico que indica sucesso ou fracasso. Por exemplo, em um jogo, estado é a tela, ações são movimentos.

exploração versus exploração

O trade-off entre exploração e exploração é central no aprendizado por reforço. Primeiramente, exploração significa experimentar ações desconhecidas para descobrir recompensas maiores. Além disso, exploração significa escolher ações já conhecidas por serem boas. Por exemplo, em um restaurante novo, explorar pratos desconhecidos ou pedir o favorito. O agente precisa equilibrar ambas para maximizar recompensas no longo prazo. Muita exploração gera perdas imediatas; pouca exploração pode perder ótimas oportunidades. Esse dilema não existe em outros paradigmas de aprendizado.

aplicações que transformaram a ia

Aprendizado por reforço alcançou feitos impressionantes em problemas complexos e desafiadores. Primeiramente, AlphaGo venceu campeões mundiais no jogo Go, considerado extremamente complexo. Além disso, sistemas de controle robótico aprendem tarefas manipulativas complexas por tentativa e erro. Veículos autônomos usam reforço para aprender comportamentos de direção seguros. Por exemplo, jogos de videogame atingem níveis sobre-humanos sem programação explícita. Na indústria, otimizam processos e alocação de recursos dinamicamente. Para iniciantes, aprendizado por reforço mostra como agentes podem aprender comportamentos complexos. É o paradigma mais próximo de como inteligência natural se desenvolve.

Semi Supervisionado Autoencoders

robô gigante

aprendendo representações com poucos rótulos

Autoencoders semi-supervisionados combinam reconstrução não supervisionada com classificação supervisionada. Diferente de autoencoders tradicionais, eles adicionam uma camada de classificação sobre o gargalo latente. Primeiramente, o autoencoder aprende representações comprimidas de todos os dados disponíveis. Além disso, a camada de classificação opera sobre essas representações usando dados rotulados. Por exemplo, comprimir imagens enquanto as classifica corretamente. O treinamento conjunto otimiza ambas as funções objetivo simultaneamente.

arquitetura híbrida eficaz

A arquitetura híbrida empilha codificador, decodificador e classificador em uma única rede. Primeiramente, o codificador comprime a entrada em uma representação latente. Além disso, o decodificador reconstrói a entrada a partir dessa representação. O classificador usa a mesma representação latente para prever rótulos. Por exemplo, classificar dígitos enquanto reconstrói imagens com qualidade. As perdas de reconstrução e classificação somam-se no treinamento.

benefícios e aplicações

Autoencoders semi-supervisionados oferecem vantagens quando poucos dados rotulados existem. Primeiramente, a reconstrução regulariza o modelo, prevenindo overfitting nos exemplos rotulados. Além disso, as representações latentes capturam estrutura dos dados não rotulados. Por exemplo, classificar tipos de células com poucos exemplos anotados. Na indústria, detectar defeitos com imagens e poucas anotações. Para iniciantes, mostram como reconstrução e classificação cooperam. É uma abordagem elegante para aprendizado com poucos rótulos.