Arquivo de Inteligência Artificial - Página 65 de 165

Categorias

1.2.4 – Redes Neurais – Visao Computacional
1.2.4.4 – Arquiteturas CNN Profundas (Deep CNNs)
1.2.4.4.1 – LeNet-5
1.2.4.4.2 – AlexNet
1.2.4.4.3 – VGGNet
1.2.4.4.4 – ResNet
1.2.4.4.5 – GoogLeNet (Inception)
1.2.4.4.6 – MobileNet
1.2.4.4.7 – Vision Transformer (ViT)
1.2.4.4.8 – Tecnicas de Treinamento

LEGENDA

Principal

Ramo

Metodo

Problemas

Modelo

Arquitetura

a revolução das conexões residuais

ResNet (Residual Network) foi desenvolvida pela Microsoft Research em 2015. Ela resolveu o problema de degradação em redes muito profundas. Diferente de arquiteturas anteriores, ResNet introduziu conexões de atalho (skip connections). Primeiramente, essas conexões permitem que gradientes fluam diretamente sem enfraquecimento. Além disso, redes podiam agora ter centenas ou milhares de camadas profundas. A arquitetura venceu o ImageNet 2015 com impressionantes 152 camadas. É considerada uma das arquiteturas mais influentes da história do deep learning.

como funcionam os blocos residuais

Blocos residuais aprendem a diferença (resíduo) entre entrada e saída desejada. Em vez de aprender H(x), o bloco aprende F(x) = H(x) – x. Primeiramente, a conexão de atalho adiciona a entrada original à saída da convolução. Além disso, se F(x) for zero, o bloco simplesmente passa x adiante. Isso torna muito fácil aprender a função identidade. Por exemplo, camadas desnecessárias podem ser ignoradas sem prejudicar o modelo. Essa abordagem permitiu treinar redes com profundidade nunca antes possível.

profundidade sem precedentes

ResNet demonstrou que redes com mais de 100 camadas eram viáveis e eficazes. Primeiramente, ResNet-152 tem 152 camadas, muito mais que VGG-19 anterior. Além disso, versões posteriores chegaram a milhares de camadas. O erro no ImageNet caiu para 3,6%, superando performance humana pela primeira vez. As conexões residuais resolveram o problema de gradientes que desapareciam. A profundidade extra se traduziu diretamente em melhor capacidade de aprendizado. Esse avanço abriu caminho para arquiteturas ainda mais profundas.

legado e impacto duradouro

ResNet influenciou praticamente todas as arquiteturas de visão desenvolvidas posteriormente. Primeiramente, conexões residuais se tornaram um componente padrão em CNNs modernas. Além disso, o conceito se estendeu para outras áreas como Transformers e linguagem. Modelos como DenseNet, Inception-ResNet e EfficientNet incorporaram ideias residuais. Para iniciantes, ResNet representa o momento em que profundidade deixou de ser limitação. Ela mostra como inovação arquitetural pode superar barreiras fundamentais. É uma arquitetura essencial no aprendizado profundo contemporâneo.

1.2.4 – Redes Neurais – Visao Computacional
1.2.4.4 – Arquiteturas CNN Profundas (Deep CNNs)
1.2.4.4.1 – LeNet-5
1.2.4.4.2 – AlexNet
1.2.4.4.3 – VGGNet
1.2.4.4.4 – ResNet
1.2.4.4.5 – GoogLeNet (Inception)
1.2.4.4.6 – MobileNet
1.2.4.4.7 – Vision Transformer (ViT)
1.2.4.4.8 – Tecnicas de Treinamento

LEGENDA

Principal

Ramo

Metodo

Problemas

Modelo

Arquitetura

a beleza da simplicidade e profundidade

VGGNet foi desenvolvida por pesquisadores da Universidade de Oxford em 2014. A arquitetura demonstrou que aumentar a profundidade com blocos simples e uniformes funciona. Diferente de AlexNet, VGG usava apenas convoluções 3×3 repetidas muitas vezes. Primeiramente, essa uniformidade simplificava a arquitetura e facilitava a implementação. Além disso, a rede provou que profundidade era mais importante que filtros complexos. A VGG16 e VGG19 tornaram-se arquiteturas clássicas amplamente utilizadas até hoje.

arquitetura uniforme e previsível

VGGNet utiliza apenas convoluções 3×3 e pooling 2×2 em toda a rede. Primeiramente, filtros pequenos reduzem drasticamente o número de parâmetros comparados a filtros grandes. Além disso, múltiplas convoluções 3×3 equivalem a uma convolução maior com mais não-linearidade. Por exemplo, duas convoluções 3×3 têm campo receptivo equivalente a uma 5×5. A arquitetura dobra o número de filtros após cada camada de pooling. Esse padrão uniforme cria uma rede previsível e fácil de entender. O resultado é uma arquitetura elegante que prioriza profundidade consistente.

trade-off entre profundidade e custo

VGG16 tem 16 camadas ponderadas enquanto VGG19 tem 19 camadas ponderadas. Primeiramente, maior profundidade trouxe melhor precisão, mas com custo computacional elevado. Além disso, VGG tem cerca de 138 milhões de parâmetros, muito mais que AlexNet. A arquitetura é famosa por sua simplicidade conceitual, mas peso computacional significativo. Por exemplo, treinar uma VGG do zero exige recursos consideráveis. Essa característica motivou o desenvolvimento de arquiteturas mais eficientes posteriormente. O trade-off entre precisão e eficiência se tornou um tema central.

legado e uso prático atual

VGGNet ainda é amplamente usada como base para transfer learning em aplicações. Primeiramente, modelos pré-treinados estão facilmente disponíveis em frameworks como PyTorch e TensorFlow. Além disso, a uniformidade da arquitetura facilita a extração de características intermediárias. Por exemplo, designers usam ativações de camadas intermediárias para visualização e análise. Embora arquiteturas mais eficientes existam, VGG mantém popularidade educacional. Para iniciantes, VGGNet demonstra como simplicidade arquitetural combinada com profundidade funciona. É um marco importante na evolução das redes neurais convolucionais.