A função de custo mede o quão ruim é a predição da rede neural. Ela quantifica a diferença entre a saída prevista e o valor real. O objetivo do treinamento é minimizar esta função. Primeiramente, a escolha da função de custo impacta diretamente a convergência. Diferentes problemas exigem diferentes funções de custo. Por exemplo, classificação usa entropia cruzada, enquanto regressão usa erro quadrático médio. A função de custo guia o algoritmo de backpropagation. Consequentemente, ela determina como os pesos da rede são atualizados. Portanto, entender as funções de custo é essencial para o sucesso do treinamento.
erro quadrático médio (mse) para regressão
O erro quadrático médio (MSE) é a função de custo padrão para problemas de regressão. Ele calcula a média dos quadrados das diferenças entre predição e valor real. Primeiramente, a fórmula é MSE = (1/n) * Σ(yi – ŷi)². O quadrado penaliza erros grandes muito mais que erros pequenos. Por exemplo, um erro de 10 contribui com 100 para o custo. Um erro de 1, por outro lado, contribui com apenas 1. Esta propriedade torna o MSE sensível a outliers. Além disso, o MSE é diferenciável e convexo para modelos lineares. O gradiente do MSE é proporcional ao erro residual (yi – ŷi). Portanto, o MSE é ideal quando erros grandes são especialmente indesejáveis. Exemplos incluem previsão de preços de casas ou estoques.
entropia cruzada (cross-entropy) para classificação
A entropia cruzada é a função de custo padrão para problemas de classificação. Ela mede a dissimilaridade entre duas distribuições de probabilidade. Primeiramente, a fórmula para duas classes é: CE = -[y log(ŷ) + (1-y) log(1-ŷ)]. Para múltiplas classes, a fórmula se generaliza: CE = -Σ y_i log(ŷ_i). A entropia cruzada penaliza predições confiantes e erradas severamente. Por exemplo, se a rede tem 99% de confiança na classe errada, o custo explode. Esta propriedade acelera o aprendizado em comparação com o MSE. Além disso, a entropia cruzada funciona bem com a ativação softmax na última camada. O gradiente resultante é simples: (ŷ_i – y_i). Portanto, a entropia cruzada é a escolha padrão para classificação de imagens, texto e áudio.
quando utilizar cada função de custo
A escolha entre MSE e entropia cruzada depende do tipo de problema. Utilize MSE para problemas de regressão contínua. Por exemplo, prever a temperatura, idade ou preço de um produto. Outro caso é quando a saída é um único valor real. Utilize entropia cruzada para problemas de classificação discreta. Por exemplo, classificar imagens em gatos ou cachorros. Outra aplicação é classificação multiclasse, como dígitos de 0 a 9. A entropia cruzada também é usada em modelos de linguagem. Evite usar MSE para classificação com ativação sigmoid/softmax. O MSE causa gradientes vanishing e convergência lenta nestes casos. Em suma, regressão → MSE, classificação → entropia cruzada. Esta heurística simples funciona bem na maioria das aplicações práticas.