O treinamento de redes neurais profundas exige mais que apenas backpropagation. Diversas técnicas foram desenvolvidas para melhorar convergência e generalização. Primeiramente, o gradiente descendente estocástico (SGD) é o otimizador fundamental. Ele atualiza os pesos usando um pequeno lote (batch) de amostras. Variantes como Adam e RMSprop aceleram a convergência significativamente. Além disso, a taxa de aprendizado (learning rate) é um hiperparâmetro crítico. Taxas muito altas causam divergência, enquanto taxas muito baixas tornam o treinamento lento. Por exemplo, schedulers reduzem a taxa de aprendizado durante o treinamento. Consequentemente, estas técnicas são essenciais para treinar redes profundas com sucesso.
regularização: dropout e data augmentation
A regularização combate o overfitting, onde a rede decora os dados de treino. O Dropout é uma técnica simples e poderosa de regularização. Durante o treinamento, ele “desliga” aleatoriamente uma fração dos neurônios. Por exemplo, um dropout de 0.5 desativa metade dos neurônios em cada iteração. Isto força a rede a aprender representações redundantes e robustas. Consequentemente, o dropout melhora significativamente a generalização para dados novos. Outra técnica essencial é a data augmentation (aumento de dados). Ela cria variações artificiais das imagens de treinamento. Por exemplo, rotações, translações, zoom e inversões horizontais. O aumento de dados é especialmente crucial quando o conjunto de treinamento é pequeno.
normalização em lote (batch normalization)
A normalização em lote (Batch Normalization) revolucionou o treinamento de redes profundas. Primeiramente, ela normaliza as ativações de cada camada para média zero e variância unitária. Este processo estabiliza a distribuição dos gradientes durante o treinamento. Além disso, a batch normalization reduz a dependência da inicialização dos pesos. Ela permite o uso de taxas de aprendizado mais altas, acelerando a convergência. Outra vantagem é um efeito regularizador suave, similar ao dropout. Por exemplo, redes com batch normalization frequentemente não precisam de dropout. A normalização é aplicada após a camada linear/convolutional e antes da ativação. Parâmetros aprendíveis (escala e deslocamento) restauram a capacidade expressiva da rede. Portanto, batch normalization é padrão em praticamente todas as arquiteturas modernas.
funções de custo e inicialização de pesos
A escolha da função de custo adequada é fundamental para o sucesso do treinamento. Para classificação, a entropia cruzada (cross-entropy) é a função padrão. Diferentemente do erro quadrático médio (MSE), ela acelera a convergência da camada softmax. Para regressão, o erro quadrático médio continua sendo a escolha comum. Além disso, a inicialização dos pesos impacta significativamente o treinamento. Pesos muito pequenos ou grandes causam gradientes vanishing ou exploding. A inicialização de He (ou Kaiming) é ideal para redes com ativações ReLU. Para ativações sigmoid/tanh, a inicialização de Xavier (Glorot) funciona melhor. Portanto, estas técnicas de inicialização permitem que o gradiente flua adequadamente através das camadas.