GoogLeNet (Inception)

1.1.2.4 – Redes Neurais – Visao Computacional
1.1.2.4.4 – Arquiteturas CNN Profundas (Deep CNNs)
1.1.2.4.4.1 – LeNet-5
1.1.2.4.4.2 – AlexNet
1.1.2.4.4.3 – VGGNet
1.1.2.4.4.4 – ResNet
1.1.2.4.4.5 – GoogLeNet (Inception)
1.1.2.4.4.6 – MobileNet
1.1.2.4.4.7 – Vision Transformer (ViT)
1.1.2.4.4.8 – Tecnicas de Treinamento
LEGENDA
Principal
Ramo
Metodo
Problemas
Modelo
Arquitetura

A GoogLeNet venceu o desafio ImageNet 2014 com uma arquitetura inovadora. Diferentemente de redes profundas como a VGG, ela foca na largura. Primeiramente, a GoogLeNet introduziu o módulo Inception como bloco fundamental. Este módulo aplica múltiplos filtros de diferentes tamanhos em paralelo. Por exemplo, convulsões 1×1, 3×3 e 5×5 ocorrem simultaneamente. Além disso, um pooling 3×3 também atua no mesmo estágio. Os resultados de todos os ramos se concatenam em uma única saída. Consequentemente, a rede captura características em diferentes escalas. Portanto, a GoogLeNet demonstra maior eficiência em parâmetros do que a VGG.

módulo inception e redução de dimensionalidade

O módulo Inception inclui um truque inteligente de redução de dimensionalidade. Primeiramente, camadas convolucionais 1×1 precedem as convoluções 3×3 e 5×5. Estas camadas 1×1 reduzem o número de canais de entrada drasticamente. Por exemplo, elas diminuem de 256 canais para apenas 64 canais. Este processo reduz significativamente o custo computacional. Além disso, a camada 1×1 adiciona não-linearidade à rede. A combinação de múltiplos ramos se concatena no final do módulo. Diferentes versões do Inception evoluíram ao longo do tempo. O Inception-v3, por exemplo, fatorou as convoluções 5×5 em duas convoluções 3×3. Isto tornou a rede ainda mais eficiente.

classificadores auxiliares e regularização

A GoogLeNet utiliza classificadores auxiliares durante o treinamento. Estes classificadores se conectam a camadas intermediárias da rede. Primeiramente, eles ajudam a combater o problema do gradiente vanishing. Redes muito profundas sofrem com gradientes que desaparecem nas camadas iniciais. Os classificadores auxiliares fornecem sinais de erro adicionais nestas camadas. Além disso, eles atuam como um mecanismo de regularização. Eles incentivam as camadas intermediárias a aprender características discriminativas. Durante o teste, descartamos estes classificadores auxiliares. Apenas o classificador final da saída atua na predição. Portanto, os auxiliares melhoram o treinamento sem afetar a inferência.

quando utilizar a googlenet

Utilize a GoogLeNet quando precisar de alta acurácia com eficiência computacional. Ela se mostra ideal para dispositivos com memória limitada. Por exemplo, sistemas embarcados e aplicações móveis. A GoogLeNet também representa uma excelente escolha para transfer learning. Você pode remover as camadas finais e treinar novamente para uma nova tarefa. Outra aplicação ocorre quando os objetos apresentam escalas muito variadas. O módulo Inception captura características em diferentes resoluções simultaneamente. Contudo, a arquitetura apresenta maior complexidade de implementação do que a AlexNet. Para projetos simples ou iniciantes, comece com arquiteturas mais básicas. Em resumo, escolha a GoogLeNet quando o equilíbrio entre acurácia, tamanho do modelo e velocidade se tornar crítico.

Deixe um comentário