Modelos de Difusão – U-Net

1.5.1 – Modelos Generativos
1.5.1.1 – Redes Neurais Generativas
1.5.1.1.1 – GANs – Geradoras
1.5.1.1.2 – Variational Autoencoders – VAE
1.5.1.1.3 – Modelos de Difusao – U-Net
LEGENDA
Principal
Ramo
Metodo
Problemas
Modelo
Arquitetura

criando dados pela remoção de ruído

Modelos de difusão geram dados através de um processo iterativo de remoção gradual de ruído. Diferente de GANs, eles adicionam ruído aos dados e aprendem a reverter o processo. Primeiramente, corrompem os dados com ruído gaussiano em múltiplos passos. Além disso, aprendem uma rede neural para denoising passo a passo. Por exemplo, gerar imagens de alta resolução a partir de ruído puro.

arquitetura unet para difusão

U-Net é a arquitetura padrão para modelos de difusão devido à sua estrutura encoder-decoder. Primeiramente, o encoder comprime a imagem e extrai características em múltiplas escalas. Além disso, o decoder reconstrói com conexões skip que preservam detalhes finos. Por exemplo, preserva texturas e bordas durante a geração.

amostragem reversa iterativa

A geração começa com ruído aleatório e aplica denoising repetidamente. Primeiramente, a rede prevê o ruído a ser removido em cada passo. Além disso, o processo iterativo refina gradualmente os detalhes. Por exemplo, de ruído para imagem em centenas de passos. Produz qualidade excepcional.

aplicações e popularidade

Modelos de difusão alcançaram estado da arte em geração de imagens. Primeiramente, usados em DALL-E 2, Stable Diffusion e Midjourney. Além disso, geram vídeos, áudio e modelos 3D. Por exemplo, criar imagens realistas a partir de texto. Para iniciantes, mostra abordagem iterativa e estável. É a arquitetura dominante atualmente.

Deixe um comentário