1.1.2.4 – Redes Neurais – Visao Computacional
1.1.2.4.4 – Arquiteturas CNN Profundas (Deep CNNs)
1.1.2.4.4.5 – GoogLeNet (Inception)
1.1.2.4.4.7 – Vision Transformer (ViT)
1.1.2.4.4.8 – Tecnicas de Treinamento
o marco que reacendeu o deep learning
AlexNet foi a rede neural que venceu o ImageNet em 2012, revolucionando a visão computacional. Desenvolvida por Alex Krizhevsky, Ilya Sutskever e Geoffrey Hinton, ela marcou uma virada histórica. Primeiramente, demonstrou que redes profundas podiam superar métodos tradicionais por margem expressiva. Além disso, o sucesso coincidiu com a disponibilidade de GPUs para treinamento eficiente. O resultado reacendeu o interesse mundial em redes neurais profundas. A partir de 2012, o deep learning se tornou dominante na área.
arquitetura inovadora do alexnet
AlexNet introduziu várias inovações arquiteturais que se tornaram padrão na área. Primeiramente, usava unidades ReLU (Rectified Linear Unit) que aceleravam significativamente o treinamento. Além disso, a rede tinha 8 camadas treináveis: 5 convolucionais e 3 totalmente conectadas. Dropout foi aplicado nas camadas totalmente conectadas para reduzir overfitting. Data augmentation expandia artificialmente o conjunto de treinamento disponível. A arquitetura utilizava duas GPUs devido à memória limitada da época. Essas inovações permitiram treinar uma rede com 60 milhões de parâmetros.
o impacto no desafio imagenet
ImageNet era um desafio com 1,2 milhão de imagens distribuídas em 1000 categorias. Primeiramente, AlexNet alcançou erro top-5 de 15,3%, contra 26,2% do segundo lugar. Além disso, a vitória foi tão esmagadora que surpreendeu toda a comunidade científica. O modelo demonstrou que deep learning em larga escala era viável e superior. A partir desse momento, praticamente todos os vencedores do ImageNet usaram redes profundas. O desafio se tornou o campo de batalha para inovações em arquiteturas CNN. A vitória da AlexNet é considerada o “big bang” do deep learning moderno.
legado e lições duradouras
AlexNet estabeleceu princípios que continuam relevantes mesmo após uma década de avanços. Primeiramente, mostrou a importância de profundidade, não apenas largura, na rede. Além disso, validou o uso massivo de GPUs para treinamento de modelos profundos. Data augmentation e dropout provaram ser técnicas essenciais contra overfitting. A arquitetura demonstrou que características aprendidas automaticamente superavam características manuais. Para iniciantes, AlexNet representa o ponto de inflexão onde deep learning se tornou dominante. Ela mostra como inovações em arquitetura, hardware e técnicas combinadas transformaram a IA.