AlexNet

programador
1.1.2.4 – Redes Neurais – Visao Computacional
1.1.2.4.4 – Arquiteturas CNN Profundas (Deep CNNs)
1.1.2.4.4.1 – LeNet-5
1.1.2.4.4.2 – AlexNet
1.1.2.4.4.3 – VGGNet
1.1.2.4.4.4 – ResNet
1.1.2.4.4.5 – GoogLeNet (Inception)
1.1.2.4.4.6 – MobileNet
1.1.2.4.4.7 – Vision Transformer (ViT)
1.1.2.4.4.8 – Tecnicas de Treinamento
LEGENDA
Principal
Ramo
Metodo
Problemas
Modelo
Arquitetura

o marco que reacendeu o deep learning

AlexNet foi a rede neural que venceu o ImageNet em 2012, revolucionando a visão computacional. Desenvolvida por Alex Krizhevsky, Ilya Sutskever e Geoffrey Hinton, ela marcou uma virada histórica. Primeiramente, demonstrou que redes profundas podiam superar métodos tradicionais por margem expressiva. Além disso, o sucesso coincidiu com a disponibilidade de GPUs para treinamento eficiente. O resultado reacendeu o interesse mundial em redes neurais profundas. A partir de 2012, o deep learning se tornou dominante na área.

arquitetura inovadora do alexnet

AlexNet introduziu várias inovações arquiteturais que se tornaram padrão na área. Primeiramente, usava unidades ReLU (Rectified Linear Unit) que aceleravam significativamente o treinamento. Além disso, a rede tinha 8 camadas treináveis: 5 convolucionais e 3 totalmente conectadas. Dropout foi aplicado nas camadas totalmente conectadas para reduzir overfitting. Data augmentation expandia artificialmente o conjunto de treinamento disponível. A arquitetura utilizava duas GPUs devido à memória limitada da época. Essas inovações permitiram treinar uma rede com 60 milhões de parâmetros.

o impacto no desafio imagenet

ImageNet era um desafio com 1,2 milhão de imagens distribuídas em 1000 categorias. Primeiramente, AlexNet alcançou erro top-5 de 15,3%, contra 26,2% do segundo lugar. Além disso, a vitória foi tão esmagadora que surpreendeu toda a comunidade científica. O modelo demonstrou que deep learning em larga escala era viável e superior. A partir desse momento, praticamente todos os vencedores do ImageNet usaram redes profundas. O desafio se tornou o campo de batalha para inovações em arquiteturas CNN. A vitória da AlexNet é considerada o “big bang” do deep learning moderno.

legado e lições duradouras

AlexNet estabeleceu princípios que continuam relevantes mesmo após uma década de avanços. Primeiramente, mostrou a importância de profundidade, não apenas largura, na rede. Além disso, validou o uso massivo de GPUs para treinamento de modelos profundos. Data augmentation e dropout provaram ser técnicas essenciais contra overfitting. A arquitetura demonstrou que características aprendidas automaticamente superavam características manuais. Para iniciantes, AlexNet representa o ponto de inflexão onde deep learning se tornou dominante. Ela mostra como inovações em arquitetura, hardware e técnicas combinadas transformaram a IA.

LeNet-5

programador
1.1.2.4 – Redes Neurais – Visao Computacional
1.1.2.4.4 – Arquiteturas CNN Profundas (Deep CNNs)
1.1.2.4.4.1 – LeNet-5
1.1.2.4.4.2 – AlexNet
1.1.2.4.4.3 – VGGNet
1.1.2.4.4.4 – ResNet
1.1.2.4.4.5 – GoogLeNet (Inception)
1.1.2.4.4.6 – MobileNet
1.1.2.4.4.7 – Vision Transformer (ViT)
1.1.2.4.4.8 – Tecnicas de Treinamento
LEGENDA
Principal
Ramo
Metodo
Problemas
Modelo
Arquitetura

a primeira rede neural convolucional da história

LeNet-5 foi a primeira rede neural convolucional (CNN) bem-sucedida desenvolvida por Yann LeCun nos anos 1990. Ela revolucionou o reconhecimento de dígitos manuscritos para sistemas de cheques bancários. Primeiramente, a arquitetura introduziu conceitos fundamentais que se tornaram padrão até hoje. Além disso, ela demonstrou que redes neurais podiam aprender características automaticamente sem extração manual. O sucesso comercial da LeNet-5 provou o valor prático do deep learning. É considerada o marco zero das redes neurais convolucionais modernas.

arquitetura clássica do lenet-5

LeNet-5 possui uma arquitetura simples mas eficaz com sete camadas treináveis. Primeiramente, duas camadas convolucionais extraem características progressivamente mais complexas das imagens. Além disso, duas camadas de pooling reduzem a dimensionalidade espacial dos dados. Camadas totalmente conectadas processam as características para classificação final. A ativação usada era tanh, antes da popularização da ReLU moderna. Por exemplo, a rede recebia imagens de 32×32 pixels de dígitos manuscritos. A saída final com 10 neurônios representava os dígitos de 0 a 9.

inovações que marcaram época

LeNet-5 introduziu o compartilhamento de pesos através da operação de convolução. Primeiramente, isso reduziu drasticamente o número de parâmetros comparado a redes totalmente conectadas. Além disso, a rede aprendia filtros que detectavam bordas e curvas automaticamente. O uso de subsampling (pooling) garantia invariância a pequenas translações na imagem. Diferente de abordagens anteriores, não precisava de extração manual de características. Essas inovações permitiram que a rede generalizasse bem para novos exemplos. A arquitetura foi projetada especificamente para processar imagens 2D.

impacto comercial e legado

LeNet-5 foi implantada comercialmente pelo USPS e bancos para reconhecimento de cheques. Primeiramente, o sistema processava milhões de dígitos manuscritos com alta precisão. Além disso, demonstrou que redes neurais podiam substituir sistemas baseados em regras manuais. O sucesso comercial validou o investimento em pesquisa de redes neurais profundas. A arquitetura influenciou diretamente desenvolvimentos posteriores como AlexNet e ResNet. Seus conceitos fundamentais permanecem em todas as CNNs modernas. Para iniciantes, LeNet-5 é o ponto de partida essencial para entender visão computacional. Ela mostra como conceitos simples combinados geram resultados poderosos.