1.1.2.4 – Redes Neurais – Visao Computacional
1.1.2.4.4 – Arquiteturas CNN Profundas (Deep CNNs)
1.1.2.4.4.5 – GoogLeNet (Inception)
1.1.2.4.4.7 – Vision Transformer (ViT)
1.1.2.4.4.8 – Tecnicas de Treinamento
a revolução das conexões residuais
ResNet (Residual Network) foi desenvolvida pela Microsoft Research em 2015. Ela resolveu o problema de degradação em redes muito profundas. Diferente de arquiteturas anteriores, ResNet introduziu conexões de atalho (skip connections). Primeiramente, essas conexões permitem que gradientes fluam diretamente sem enfraquecimento. Além disso, redes podiam agora ter centenas ou milhares de camadas profundas. A arquitetura venceu o ImageNet 2015 com impressionantes 152 camadas. É considerada uma das arquiteturas mais influentes da história do deep learning.
como funcionam os blocos residuais
Blocos residuais aprendem a diferença (resíduo) entre entrada e saída desejada. Em vez de aprender H(x), o bloco aprende F(x) = H(x) – x. Primeiramente, a conexão de atalho adiciona a entrada original à saída da convolução. Além disso, se F(x) for zero, o bloco simplesmente passa x adiante. Isso torna muito fácil aprender a função identidade. Por exemplo, camadas desnecessárias podem ser ignoradas sem prejudicar o modelo. Essa abordagem permitiu treinar redes com profundidade nunca antes possível.
profundidade sem precedentes
ResNet demonstrou que redes com mais de 100 camadas eram viáveis e eficazes. Primeiramente, ResNet-152 tem 152 camadas, muito mais que VGG-19 anterior. Além disso, versões posteriores chegaram a milhares de camadas. O erro no ImageNet caiu para 3,6%, superando performance humana pela primeira vez. As conexões residuais resolveram o problema de gradientes que desapareciam. A profundidade extra se traduziu diretamente em melhor capacidade de aprendizado. Esse avanço abriu caminho para arquiteturas ainda mais profundas.
legado e impacto duradouro
ResNet influenciou praticamente todas as arquiteturas de visão desenvolvidas posteriormente. Primeiramente, conexões residuais se tornaram um componente padrão em CNNs modernas. Além disso, o conceito se estendeu para outras áreas como Transformers e linguagem. Modelos como DenseNet, Inception-ResNet e EfficientNet incorporaram ideias residuais. Para iniciantes, ResNet representa o momento em que profundidade deixou de ser limitação. Ela mostra como inovação arquitetural pode superar barreiras fundamentais. É uma arquitetura essencial no aprendizado profundo contemporâneo.