1.5.1 – Modelos Generativos
1.5.1.1 – Redes Neurais Generativas
1.5.1.1.1 – GANs – Geradoras
1.5.1.1.2 – Variational Autoencoders – VAE
1.5.1.1.3 – Modelos de Difusao – U-Net
criando dados pela remoção de ruído
Modelos de difusão geram dados através de um processo iterativo de remoção gradual de ruído. Diferente de GANs, eles adicionam ruído aos dados e aprendem a reverter o processo. Primeiramente, corrompem os dados com ruído gaussiano em múltiplos passos. Além disso, aprendem uma rede neural para denoising passo a passo. Por exemplo, gerar imagens de alta resolução a partir de ruído puro.
arquitetura unet para difusão
U-Net é a arquitetura padrão para modelos de difusão devido à sua estrutura encoder-decoder. Primeiramente, o encoder comprime a imagem e extrai características em múltiplas escalas. Além disso, o decoder reconstrói com conexões skip que preservam detalhes finos. Por exemplo, preserva texturas e bordas durante a geração.
amostragem reversa iterativa
A geração começa com ruído aleatório e aplica denoising repetidamente. Primeiramente, a rede prevê o ruído a ser removido em cada passo. Além disso, o processo iterativo refina gradualmente os detalhes. Por exemplo, de ruído para imagem em centenas de passos. Produz qualidade excepcional.
aplicações e popularidade
Modelos de difusão alcançaram estado da arte em geração de imagens. Primeiramente, usados em DALL-E 2, Stable Diffusion e Midjourney. Além disso, geram vídeos, áudio e modelos 3D. Por exemplo, criar imagens realistas a partir de texto. Para iniciantes, mostra abordagem iterativa e estável. É a arquitetura dominante atualmente.