Generativo

bebê aprendendo a andar
1 – Aprendizado de Maquina
1.5 – Generativo
1.5.1 – Modelos Generativos
LEGENDA
Principal
Ramo
Metodo
Problemas
Modelo
Arquitetura

criando novos dados do zero

Aprendizado generativo é uma área que cria novos dados semelhantes aos dados de treinamento. Diferente de modelos discriminativos que apenas classificam, eles geram conteúdo original. Primeiramente, aprendem a distribuição de probabilidade dos dados originais. Além disso, amostram dessa distribuição para criar exemplos inéditos. Por exemplo, gerar rostos humanos que nunca existiram ou textos coerentes.

modelos generativos fundamentais

GANs, VAEs e modelos de difusão são as principais arquiteturas generativas. Primeiramente, GANs usam competição entre gerador e discriminador para criar dados realistas. Além disso, VAEs aprendem espaços latentes contínuos para geração controlada. Modelos de difusão removem ruído gradualmente para criar amostras de alta qualidade.

aplicações transformadoras

Modelos generativos revolucionaram criação de conteúdo, arte e design. Primeiramente, geram imagens realistas a partir de descrições textuais (DALL-E, Midjourney). Além disso, criam músicas, vídeos e modelos 3D. Por exemplo, ChatGPT gera texto coerente e criativo. Transformaram indústrias criativas.

desafios e considerações

Modelos generativos levantam questões sobre autenticidade e uso ético. Primeiramente, deepfakes podem enganar e causar danos sociais. Além disso, direitos autorais sobre conteúdo gerado são debatidos. Por exemplo, uso de artistas sem consentimento. Para iniciantes, mostra poder criativo da IA. É uma área em rápida evolução com grande impacto.

MADDPG

bebê aprendendo a andar
1.4 – Por Reforco
1.4.6 – Aprendizado por Reforco Multiagente
1.4.6.1.2 – MADDPG
LEGENDA
Principal
Ramo
Metodo
Problemas
Modelo
Arquitetura

ddpg para múltiplos agentes

MADDPG (Multi-Agent Deep Deterministic Policy Gradient) estende DDPG para ambientes multiagente. Desenvolvido pela OpenAI, usa arquitetura CTDE com críticos centralizados. Primeiramente, cada agente tem seu próprio ator e crítico. Além disso, o crítico de cada agente vê observações e ações de todos. Por exemplo, usado em jogos cooperativos e competitivos.

centralização com atores descentralizados

Durante treinamento, críticos têm informação global completa do ambiente. Primeiramente, cada crítico recebe estado global e ações de todos agentes. Além disso, atores usam apenas observações locais para decisão. Por exemplo, robôs aprendem coordenação com críticos centrais, executam localmente. Permite cooperação sem comunicação na execução.

estabilidade e não estacionariedade

Críticos centralizados estabilizam aprendizado em ambientes multiagente. Primeiramente, o ambiente visto por cada agente não é estacionário. Além disso, críticos com informação completa reduzem variância. Por exemplo, em jogos competitivos, agentes aprendem estratégias complexas. É robusto a mudanças nas políticas dos outros.

aplicações e legado

MADDPG foi pioneiro em aprendizado multiagente com ação contínua. Primeiramente, usado em jogos físicos, robótica e simulações. Além disso, inspirou algoritmos como MAPPO e QMIX. Por exemplo, aprendizado de perseguição-evitação. Para iniciantes, MADDPG mostra como estender DDPG para múltiplos agentes. É algoritmo fundamental em multiagente.