Modelos de Difusão – U-Net

bebê aprendendo a andar
1.5.1 – Modelos Generativos
1.5.1.1 – Redes Neurais Generativas
1.5.1.1.1 – GANs – Geradoras
1.5.1.1.2 – Variational Autoencoders – VAE
1.5.1.1.3 – Modelos de Difusao – U-Net
LEGENDA
Principal
Ramo
Metodo
Problemas
Modelo
Arquitetura

criando dados pela remoção de ruído

Modelos de difusão geram dados através de um processo iterativo de remoção gradual de ruído. Diferente de GANs, eles adicionam ruído aos dados e aprendem a reverter o processo. Primeiramente, corrompem os dados com ruído gaussiano em múltiplos passos. Além disso, aprendem uma rede neural para denoising passo a passo. Por exemplo, gerar imagens de alta resolução a partir de ruído puro.

arquitetura unet para difusão

U-Net é a arquitetura padrão para modelos de difusão devido à sua estrutura encoder-decoder. Primeiramente, o encoder comprime a imagem e extrai características em múltiplas escalas. Além disso, o decoder reconstrói com conexões skip que preservam detalhes finos. Por exemplo, preserva texturas e bordas durante a geração.

amostragem reversa iterativa

A geração começa com ruído aleatório e aplica denoising repetidamente. Primeiramente, a rede prevê o ruído a ser removido em cada passo. Além disso, o processo iterativo refina gradualmente os detalhes. Por exemplo, de ruído para imagem em centenas de passos. Produz qualidade excepcional.

aplicações e popularidade

Modelos de difusão alcançaram estado da arte em geração de imagens. Primeiramente, usados em DALL-E 2, Stable Diffusion e Midjourney. Além disso, geram vídeos, áudio e modelos 3D. Por exemplo, criar imagens realistas a partir de texto. Para iniciantes, mostra abordagem iterativa e estável. É a arquitetura dominante atualmente.

Variational Autoencoders – VAE

bebê aprendendo a andar
1.5.1 – Modelos Generativos
1.5.1.1 – Redes Neurais Generativas
1.5.1.1.1 – GANs – Geradoras
1.5.1.1.2 – Variational Autoencoders – VAE
1.5.1.1.3 – Modelos de Difusao – U-Net
LEGENDA
Principal
Ramo
Metodo
Problemas
Modelo
Arquitetura

aprendendo espaços latentes contínuos

VAEs (Variational Autoencoders) aprendem representações latentes probabilísticas e contínuas dos dados. Diferente de autoencoders tradicionais, eles mapeiam entradas para distribuições em vez de pontos fixos. Primeiramente, o codificador produz média e variância de uma distribuição gaussiana. Além disso, o decodificador reconstrói amostras a partir dessa distribuição. Por exemplo, gerar novos dígitos variando estilo e espessura suavemente.

reparametrização e amostragem

O truque de reparametrização permite backpropagation através da amostragem. Primeiramente, amostra ruído ε ~ N(0,1) e transforma z = μ + σ * ε. Além disso, isso mantém o gradiente determinístico enquanto permite estocasticidade. Por exemplo, gera variações contínuas no espaço latente.

espaço latente estruturado

VAEs organizam o espaço latente de forma suave e interpretável. Primeiramente, pontos próximos no espaço latente geram dados semanticamente similares. Além disso, permite interpolação significativa entre diferentes exemplos. Por exemplo, transição suave entre dígitos 3 e 8. É uma propriedade única dos VAEs.

aplicações e características

VAEs são ideais para geração controlada e representações interpretáveis. Primeiramente, usados para geração de imagens, música e moléculas. Além disso, aprendem representações para downstream tasks. Por exemplo, gerar novas estruturas químicas com propriedades desejadas. Para iniciantes, VAEs mostram representações probabilísticas e estruturadas. É uma arquitetura elegante e poderosa.