Otimizadores são algoritmos que atualizam os pesos das redes neurais. Eles determinam como o gradiente descendente é aplicado. Primeiramente, a escolha do otimizador impacta velocidade e qualidade da convergência. Diferentes otimizadores oferecem diferentes vantagens e desvantagens. Por exemplo, o SGD é simples, mas pode ser lento. O Adam, por outro lado, é rápido e robusto para muitos problemas. Consequentemente, entender os otimizadores é crucial para treinar redes eficientemente. Portanto, este guia explica os três otimizadores mais populares.
sgd (stochastic gradient descent) e momentum
O SGD é o otimizador mais fundamental e simples. Ele atualiza os pesos usando o gradiente do erro em relação a cada peso. Primeiramente, a regra de atualização é:
rmsprop: taxas de aprendizado adaptativas por parâmetro
O RMSprop adapta a taxa de aprendizado para cada parâmetro individualmente. Ele foi desenvolvido para lidar com gradientes não-estacionários. Primeiramente, ele mantém uma média móvel dos quadrados dos gradientes. A fórmula é:
adam: combinando momentum e rmsprop
O Adam (Adaptive Moment Estimation) é hoje o otimizador mais popular. Ele combina as vantagens do momentum e do RMSprop. Primeiramente, ele mantém duas médias móveis: momento (m) e variância (v). As atualizações são: