VGGNet – CNN

1.1.2.4 – Redes Neurais – Visao Computacional
1.1.2.4.4 – Arquiteturas CNN Profundas (Deep CNNs)
1.1.2.4.4.1 – LeNet-5
1.1.2.4.4.2 – AlexNet
1.1.2.4.4.3 – VGGNet
1.1.2.4.4.4 – ResNet
1.1.2.4.4.5 – GoogLeNet (Inception)
1.1.2.4.4.6 – MobileNet
1.1.2.4.4.7 – Vision Transformer (ViT)
1.1.2.4.4.8 – Tecnicas de Treinamento
LEGENDA
Principal
Ramo
Metodo
Problemas
Modelo
Arquitetura

a beleza da simplicidade e profundidade

VGGNet foi desenvolvida por pesquisadores da Universidade de Oxford em 2014. A arquitetura demonstrou que aumentar a profundidade com blocos simples e uniformes funciona. Diferente de AlexNet, VGG usava apenas convoluções 3×3 repetidas muitas vezes. Primeiramente, essa uniformidade simplificava a arquitetura e facilitava a implementação. Além disso, a rede provou que profundidade era mais importante que filtros complexos. A VGG16 e VGG19 tornaram-se arquiteturas clássicas amplamente utilizadas até hoje.

arquitetura uniforme e previsível

VGGNet utiliza apenas convoluções 3×3 e pooling 2×2 em toda a rede. Primeiramente, filtros pequenos reduzem drasticamente o número de parâmetros comparados a filtros grandes. Além disso, múltiplas convoluções 3×3 equivalem a uma convolução maior com mais não-linearidade. Por exemplo, duas convoluções 3×3 têm campo receptivo equivalente a uma 5×5. A arquitetura dobra o número de filtros após cada camada de pooling. Esse padrão uniforme cria uma rede previsível e fácil de entender. O resultado é uma arquitetura elegante que prioriza profundidade consistente.

trade-off entre profundidade e custo

VGG16 tem 16 camadas ponderadas enquanto VGG19 tem 19 camadas ponderadas. Primeiramente, maior profundidade trouxe melhor precisão, mas com custo computacional elevado. Além disso, VGG tem cerca de 138 milhões de parâmetros, muito mais que AlexNet. A arquitetura é famosa por sua simplicidade conceitual, mas peso computacional significativo. Por exemplo, treinar uma VGG do zero exige recursos consideráveis. Essa característica motivou o desenvolvimento de arquiteturas mais eficientes posteriormente. O trade-off entre precisão e eficiência se tornou um tema central.

legado e uso prático atual

VGGNet ainda é amplamente usada como base para transfer learning em aplicações. Primeiramente, modelos pré-treinados estão facilmente disponíveis em frameworks como PyTorch e TensorFlow. Além disso, a uniformidade da arquitetura facilita a extração de características intermediárias. Por exemplo, designers usam ativações de camadas intermediárias para visualização e análise. Embora arquiteturas mais eficientes existam, VGG mantém popularidade educacional. Para iniciantes, VGGNet demonstra como simplicidade arquitetural combinada com profundidade funciona. É um marco importante na evolução das redes neurais convolucionais.

Deixe um comentário