Modelos de Difusão - U-Net

criando dados pela remoção de ruído

Modelos de difusão geram dados através de um processo iterativo de remoção gradual de ruído. Diferente de GANs, eles adicionam ruído aos dados e aprendem a reverter o processo. Primeiramente, corrompem os dados com ruído gaussiano em múltiplos passos. Além disso, aprendem uma rede neural para denoising passo a passo. Por exemplo, gerar imagens de alta resolução a partir de ruído puro.

arquitetura unet para difusão

U-Net é a arquitetura padrão para modelos de difusão devido à sua estrutura encoder-decoder. Primeiramente, o encoder comprime a imagem e extrai características em múltiplas escalas. Além disso, o decoder reconstrói com conexões skip que preservam detalhes finos. Por exemplo, preserva texturas e bordas durante a geração.

amostragem reversa iterativa

A geração começa com ruído aleatório e aplica denoising repetidamente. Primeiramente, a rede prevê o ruído a ser removido em cada passo. Além disso, o processo iterativo refina gradualmente os detalhes. Por exemplo, de ruído para imagem em centenas de passos. Produz qualidade excepcional.

aplicações e popularidade

Modelos de difusão alcançaram estado da arte em geração de imagens. Primeiramente, usados em DALL-E 2, Stable Diffusion e Midjourney. Além disso, geram vídeos, áudio e modelos 3D. Por exemplo, criar imagens realistas a partir de texto. Para iniciantes, mostra abordagem iterativa e estável. É a arquitetura dominante atualmente.

Indice

Modelos de Difusão – U-Net

criando dados pela remoção de ruído

arquitetura unet para difusão

amostragem reversa iterativa

aplicações e popularidade

Deixe um comentário Cancelar resposta