Modelos de Difusão – U-Net

bebê aprendendo a andar

criando dados pela remoção de ruído

Modelos de difusão geram dados através de um processo iterativo de remoção gradual de ruído. Diferente de GANs, eles adicionam ruído aos dados e aprendem a reverter o processo. Primeiramente, corrompem os dados com ruído gaussiano em múltiplos passos. Além disso, aprendem uma rede neural para denoising passo a passo. Por exemplo, gerar imagens de alta resolução a partir de ruído puro.

arquitetura unet para difusão

U-Net é a arquitetura padrão para modelos de difusão devido à sua estrutura encoder-decoder. Primeiramente, o encoder comprime a imagem e extrai características em múltiplas escalas. Além disso, o decoder reconstrói com conexões skip que preservam detalhes finos. Por exemplo, preserva texturas e bordas durante a geração.

amostragem reversa iterativa

A geração começa com ruído aleatório e aplica denoising repetidamente. Primeiramente, a rede prevê o ruído a ser removido em cada passo. Além disso, o processo iterativo refina gradualmente os detalhes. Por exemplo, de ruído para imagem em centenas de passos. Produz qualidade excepcional.

aplicações e popularidade

Modelos de difusão alcançaram estado da arte em geração de imagens. Primeiramente, usados em DALL-E 2, Stable Diffusion e Midjourney. Além disso, geram vídeos, áudio e modelos 3D. Por exemplo, criar imagens realistas a partir de texto. Para iniciantes, mostra abordagem iterativa e estável. É a arquitetura dominante atualmente.

Variational Autoencoders – VAE

bebê aprendendo a andar

aprendendo espaços latentes contínuos

VAEs (Variational Autoencoders) aprendem representações latentes probabilísticas e contínuas dos dados. Diferente de autoencoders tradicionais, eles mapeiam entradas para distribuições em vez de pontos fixos. Primeiramente, o codificador produz média e variância de uma distribuição gaussiana. Além disso, o decodificador reconstrói amostras a partir dessa distribuição. Por exemplo, gerar novos dígitos variando estilo e espessura suavemente.

reparametrização e amostragem

O truque de reparametrização permite backpropagation através da amostragem. Primeiramente, amostra ruído ε ~ N(0,1) e transforma z = μ + σ * ε. Além disso, isso mantém o gradiente determinístico enquanto permite estocasticidade. Por exemplo, gera variações contínuas no espaço latente.

espaço latente estruturado

VAEs organizam o espaço latente de forma suave e interpretável. Primeiramente, pontos próximos no espaço latente geram dados semanticamente similares. Além disso, permite interpolação significativa entre diferentes exemplos. Por exemplo, transição suave entre dígitos 3 e 8. É uma propriedade única dos VAEs.

aplicações e características

VAEs são ideais para geração controlada e representações interpretáveis. Primeiramente, usados para geração de imagens, música e moléculas. Além disso, aprendem representações para downstream tasks. Por exemplo, gerar novas estruturas químicas com propriedades desejadas. Para iniciantes, VAEs mostram representações probabilísticas e estruturadas. É uma arquitetura elegante e poderosa.