Formulação matemática: entendendo a magia por trás do SGD

Quando a matemática encontra a prática: a beleza escondida nos algoritmos

Imagine que você está aprendendo a andar de bicicleta. Você não precisa entender física avançada para pedalar, mas saber sobre equilíbrio, força e atrito ajuda muito quando algo dá errado. Com o SGD é a mesma coisa – você pode usar a ferramenta sem entender a matemática, mas quando compreende os princípios por trás, consegue resolver problemas muito mais eficientemente. A formulação matemática é o “porquê” que explica o “como” do algoritmo funcionar.

O que realmente acontece quando o SGD aprende?

Você deve estar se perguntando: “se eu posso usar o SGD sem entender a matemática, por que me preocupar com ela?” A resposta é que entender a formulação matemática é como ter um mapa quando você está perdido. Quando o modelo não converge, quando a performance é ruim, ou quando você precisa adaptar o algoritmo para um problema específico, o entendimento matemático se torna sua bússola.

No coração do SGD está uma ideia elegante: em vez de calcular o gradiente usando todos os dados (o que é computacionalmente caro), usamos apenas uma amostra por vez. A atualização básica segue esta fórmula:

\(w_{t+1} = w_t – \eta_t \nabla Q_i(w_t)\)

onde \(w_t\) são os pesos no tempo \(t\), \(η_t\) é a taxa de aprendizado, e \(∇Q_i(w_t)\) é o gradiente da função custo para a amostra \(i\).

Mãos na massa: implementando o SGD do zero

Vamos criar uma implementação simplificada do SGD para ver a matemática em ação:

import numpy as np
import matplotlib.pyplot as plt

class SimpleSGD:
    def __init__(self, learning_rate=0.01, max_iters=1000, tol=1e-3):
        self.learning_rate = learning_rate
        self.max_iters = max_iters
        self.tol = tol
        self.loss_history = []
    
    def compute_gradient(self, X_batch, y_batch, weights):
        """Calcula o gradiente para regressão linear"""
        predictions = X_batch.dot(weights)
        errors = predictions - y_batch
        gradient = 2 * X_batch.T.dot(errors) / len(X_batch)
        return gradient
    
    def compute_loss(self, X, y, weights):
        """Calcula a loss (erro quadrático médio)"""
        predictions = X.dot(weights)
        return np.mean((predictions - y) ** 2)
    
    def fit(self, X, y):
        n_samples, n_features = X.shape
        self.weights = np.random.randn(n_features)
        
        for iteration in range(self.max_iters):
            # SGD: seleciona uma amostra aleatória
            random_idx = np.random.randint(n_samples)
            X_batch = X[random_idx:random_idx+1]  # Apenas uma amostra
            y_batch = y[random_idx:random_idx+1]
            
            # Calcula o gradiente para esta amostra
            gradient = self.compute_gradient(X_batch, y_batch, self.weights)
            
            # Atualiza os pesos
            self.weights -= self.learning_rate * gradient
            
            # Calcula a loss completa para monitoramento
            current_loss = self.compute_loss(X, y, self.weights)
            self.loss_history.append(current_loss)
            
            # Critério de parada
            if iteration > 0 and abs(self.loss_history[-2] - current_loss) < self.tol:
                break
        
        return self
    
    def predict(self, X):
        return X.dot(self.weights)

# Testando nossa implementação
np.random.seed(42)
X_simple = 2 * np.random.randn(100, 1)
y_simple = 4 + 3 * X_simple + np.random.randn(100, 1)

# Adicionando bias term
X_with_bias = np.c_[np.ones((100, 1)), X_simple]

# Treinando nosso SGD personalizado
sgd_custom = SimpleSGD(learning_rate=0.1, max_iters=1000)
sgd_custom.fit(X_with_bias, y_simple.ravel())

print(f"Peso encontrados: {sgd_custom.weights}")
print(f"Loss final: {sgd_custom.loss_history[-1]:.4f}")
print(f"Coeficientes reais: bias=4, peso=3")
print(f"Coeficientes aprendidos: bias={sgd_custom.weights[0]:.2f}, peso={sgd_custom.weights[1]:.2f}")

# Visualizando a convergência
plt.figure(figsize=(10, 6))
plt.plot(sgd_custom.loss_history)
plt.title('Convergência do SGD personalizado')
plt.xlabel('Iteração')
plt.ylabel('Loss')
plt.grid(True, alpha=0.3)
plt.show()

import numpy as np

import matplotlib.pyplot as plt

class SimpleSGD:

def __init__(self, learning_rate=0.01, max_iters=1000, tol=1e-3):

self.learning_rate = learning_rate

self.max_iters = max_iters

self.tol = tol

self.loss_history = []

def compute_gradient(self, X_batch, y_batch, weights):

"""Calcula o gradiente para regressão linear"""

predictions = X_batch.dot(weights)

errors = predictions - y_batch

gradient = 2 * X_batch.T.dot(errors) / len(X_batch)

return gradient

def compute_loss(self, X, y, weights):

"""Calcula a loss (erro quadrático médio)"""

predictions = X.dot(weights)

return np.mean((predictions - y) ** 2)

def fit(self, X, y):

n_samples, n_features = X.shape

self.weights = np.random.randn(n_features)

for iteration in range(self.max_iters):

# SGD: seleciona uma amostra aleatória

random_idx = np.random.randint(n_samples)

X_batch = X[random_idx:random_idx+1] # Apenas uma amostra

y_batch = y[random_idx:random_idx+1]

# Calcula o gradiente para esta amostra

gradient = self.compute_gradient(X_batch, y_batch, self.weights)

# Atualiza os pesos

self.weights -= self.learning_rate * gradient

# Calcula a loss completa para monitoramento

current_loss = self.compute_loss(X, y, self.weights)

self.loss_history.append(current_loss)

# Critério de parada

if iteration > 0 and abs(self.loss_history[-2] - current_loss) < self.tol:

break

return self

def predict(self, X):

return X.dot(self.weights)

# Testando nossa implementação

np.random.seed(42)

X_simple = 2 * np.random.randn(100, 1)

y_simple = 4 + 3 * X_simple + np.random.randn(100, 1)

# Adicionando bias term

X_with_bias = np.c_[np.ones((100, 1)), X_simple]

# Treinando nosso SGD personalizado

sgd_custom = SimpleSGD(learning_rate=0.1, max_iters=1000)

sgd_custom.fit(X_with_bias, y_simple.ravel())

print(f"Peso encontrados: {sgd_custom.weights}")

print(f"Loss final: {sgd_custom.loss_history[-1]:.4f}")

print(f"Coeficientes reais: bias=4, peso=3")

print(f"Coeficientes aprendidos: bias={sgd_custom.weights[0]:.2f}, peso={sgd_custom.weights[1]:.2f}")

# Visualizando a convergência

plt.figure(figsize=(10, 6))

plt.plot(sgd_custom.loss_history)

plt.title('Convergência do SGD personalizado')

plt.xlabel('Iteração')

plt.ylabel('Loss')

plt.grid(True, alpha=0.3)

plt.show()

Os componentes matemáticos essenciais do SGD

Para realmente entender o SGD, precisamos decompor sua formulação matemática em partes gerenciáveis:

Função objetivo: o que estamos tentando minimizar
Gradiente: a direção de maior aumento da função
Taxa de aprendizado: o tamanho do passo que damos
Regularização: controlando a complexidade do modelo

Decompondo a função objetivo completa

Vamos examinar cada componente da formulação matemática completa do SGD:

import numpy as np

def sgd_objective_function(weights, X, y, alpha, loss_type='squared'):
    """
    Calcula a função objetivo completa do SGD com regularização
    """
    n_samples = len(y)
    
    # Termo de loss (erro)
    if loss_type == 'squared':
        predictions = X.dot(weights)
        loss = np.sum((predictions - y) ** 2) / (2 * n_samples)
    elif loss_type == 'logistic':
        predictions = 1 / (1 + np.exp(-X.dot(weights)))
        loss = -np.sum(y * np.log(predictions) + (1 - y) * np.log(1 - predictions)) / n_samples
    else:
        raise ValueError("Tipo de loss não suportado")
    
    # Termo de regularização L2
    regularization = (alpha / 2) * np.sum(weights[1:] ** 2)  # Não regulariza o bias
    
    return loss + regularization

def sgd_gradient(weights, X_batch, y_batch, alpha, loss_type='squared'):
    """
    Calcula o gradiente estocástico
    """
    n_batch = len(y_batch)
    
    if loss_type == 'squared':
        predictions = X_batch.dot(weights)
        errors = predictions - y_batch
        gradient_loss = X_batch.T.dot(errors) / n_batch
    elif loss_type == 'logistic':
        predictions = 1 / (1 + np.exp(-X_batch.dot(weights)))
        errors = predictions - y_batch
        gradient_loss = X_batch.T.dot(errors) / n_batch
    else:
        raise ValueError("Tipo de loss não suportado")
    
    # Gradiente da regularização (não aplica ao bias)
    gradient_reg = np.zeros_like(weights)
    gradient_reg[1:] = alpha * weights[1:]  # Apenas para pesos, não bias
    
    return gradient_loss + gradient_reg

# Exemplo de uso
np.random.seed(42)
X_demo = np.random.randn(50, 3)
weights_true = np.array([1.0, 2.0, -1.0])
y_demo = X_demo.dot(weights_true) + 0.1 * np.random.randn(50)

# Adicionando coluna de bias
X_with_bias = np.c_[np.ones((50, 1)), X_demo]
weights_initial = np.random.randn(4)

# Calculando função objetivo e gradiente
objective_value = sgd_objective_function(weights_initial, X_with_bias, y_demo, alpha=0.1)
gradient_value = sgd_gradient(weights_initial, X_with_bias[:5], y_demo[:5], alpha=0.1)

print(f"Valor da função objetivo: {objective_value:.4f}")
print(f"Norma do gradiente: {np.linalg.norm(gradient_value):.4f}")
print(f"Gradiente: {gradient_value}")

# Mostrando que o gradiente aponta na direção de descida
weights_new = weights_initial - 0.1 * gradient_value
new_objective = sgd_objective_function(weights_new, X_with_bias, y_demo, alpha=0.1)
print(f"Novo valor da função objetivo: {new_objective:.4f}")
print(f"Melhoria: {objective_value - new_objective:.4f}")

import numpy as np

def sgd_objective_function(weights, X, y, alpha, loss_type='squared'):

"""

Calcula a função objetivo completa do SGD com regularização

"""

n_samples = len(y)

# Termo de loss (erro)

if loss_type == 'squared':

predictions = X.dot(weights)

loss = np.sum((predictions - y) ** 2) / (2 * n_samples)

elif loss_type == 'logistic':

predictions = 1 / (1 + np.exp(-X.dot(weights)))

loss = -np.sum(y * np.log(predictions) + (1 - y) * np.log(1 - predictions)) / n_samples

else:

raise ValueError("Tipo de loss não suportado")

# Termo de regularização L2

regularization = (alpha / 2) * np.sum(weights[1:] ** 2) # Não regulariza o bias

return loss + regularization

def sgd_gradient(weights, X_batch, y_batch, alpha, loss_type='squared'):

"""

Calcula o gradiente estocástico

"""

n_batch = len(y_batch)

if loss_type == 'squared':

predictions = X_batch.dot(weights)

errors = predictions - y_batch

gradient_loss = X_batch.T.dot(errors) / n_batch

elif loss_type == 'logistic':

predictions = 1 / (1 + np.exp(-X_batch.dot(weights)))

errors = predictions - y_batch

gradient_loss = X_batch.T.dot(errors) / n_batch

else:

raise ValueError("Tipo de loss não suportado")

# Gradiente da regularização (não aplica ao bias)

gradient_reg = np.zeros_like(weights)

gradient_reg[1:] = alpha * weights[1:] # Apenas para pesos, não bias

return gradient_loss + gradient_reg

# Exemplo de uso

np.random.seed(42)

X_demo = np.random.randn(50, 3)

weights_true = np.array([1.0, 2.0, -1.0])

y_demo = X_demo.dot(weights_true) + 0.1 * np.random.randn(50)

# Adicionando coluna de bias

X_with_bias = np.c_[np.ones((50, 1)), X_demo]

weights_initial = np.random.randn(4)

# Calculando função objetivo e gradiente

objective_value = sgd_objective_function(weights_initial, X_with_bias, y_demo, alpha=0.1)

gradient_value = sgd_gradient(weights_initial, X_with_bias[:5], y_demo[:5], alpha=0.1)

print(f"Valor da função objetivo: {objective_value:.4f}")

print(f"Norma do gradiente: {np.linalg.norm(gradient_value):.4f}")

print(f"Gradiente: {gradient_value}")

# Mostrando que o gradiente aponta na direção de descida

weights_new = weights_initial - 0.1 * gradient_value

new_objective = sgd_objective_function(weights_new, X_with_bias, y_demo, alpha=0.1)

print(f"Novo valor da função objetivo: {new_objective:.4f}")

print(f"Melhoria: {objective_value - new_objective:.4f}")

Por que a formulação matemática importa na prática?

Entender a matemática não é apenas um exercício acadêmico – tem implicações práticas diretas no seu trabalho:

Debugging de modelos: quando o modelo não converge, você pode investigar se o gradiente está sendo calculado corretamente
Seleção de hiperparâmetros: entender como a taxa de aprendizado afeta a convergência ajuda a escolher valores melhores
Adaptação para problemas específicos: você pode modificar a função custo para necessidades específicas do seu domínio
Interpretação de resultados: compreender o que os coeficientes representam ajuda na explicação do modelo

Comparando diferentes funções de perda

Cada função de perda tem propriedades matemáticas diferentes que afetam o comportamento do SGD:

import matplotlib.pyplot as plt

# Visualizando diferentes funções de perda
def squared_loss(prediction, true_value):
    return 0.5 * (prediction - true_value) ** 2

def huber_loss(prediction, true_value, delta=1.0):
    error = abs(prediction - true_value)
    if error <= delta:
        return 0.5 * error ** 2
    else:
        return delta * (error - 0.5 * delta)

def epsilon_insensitive_loss(prediction, true_value, epsilon=0.1):
    error = abs(prediction - true_value)
    return max(0, error - epsilon)

# Gerando dados para plotagem
errors = np.linspace(-2, 2, 100)
true_value = 0

squared_losses = [squared_loss(err, true_value) for err in errors]
huber_losses = [huber_loss(err, true_value) for err in errors]
epsilon_losses = [epsilon_insensitive_loss(err, true_value) for err in errors]

plt.figure(figsize=(12, 8))
plt.plot(errors, squared_losses, label='Squared Loss', linewidth=2)
plt.plot(errors, huber_losses, label='Huber Loss', linewidth=2)
plt.plot(errors, epsilon_losses, label='Epsilon-Insensitive Loss', linewidth=2)
plt.xlabel('Erro (predição - valor real)')
plt.ylabel('Loss')
plt.title('Comparação de Funções de Perda')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

print("Insights das funções de perda:")
print("- Squared Loss: penaliza muito outliers, gradiente linear")
print("- Huber Loss: robusta a outliers, combina squared e linear")
print("- Epsilon-Insensitive: ignora erros pequenos, útil para SVR")

import matplotlib.pyplot as plt

# Visualizando diferentes funções de perda

def squared_loss(prediction, true_value):

return 0.5 * (prediction - true_value) ** 2

def huber_loss(prediction, true_value, delta=1.0):

error = abs(prediction - true_value)

if error <= delta:

return 0.5 * error ** 2

else:

return delta * (error - 0.5 * delta)

def epsilon_insensitive_loss(prediction, true_value, epsilon=0.1):

error = abs(prediction - true_value)

return max(0, error - epsilon)

# Gerando dados para plotagem

errors = np.linspace(-2, 2, 100)

true_value = 0

squared_losses = [squared_loss(err, true_value) for err in errors]

huber_losses = [huber_loss(err, true_value) for err in errors]

epsilon_losses = [epsilon_insensitive_loss(err, true_value) for err in errors]

plt.figure(figsize=(12, 8))

plt.plot(errors, squared_losses, label='Squared Loss', linewidth=2)

plt.plot(errors, huber_losses, label='Huber Loss', linewidth=2)

plt.plot(errors, epsilon_losses, label='Epsilon-Insensitive Loss', linewidth=2)

plt.xlabel('Erro (predição - valor real)')

plt.ylabel('Loss')

plt.title('Comparação de Funções de Perda')

plt.legend()

plt.grid(True, alpha=0.3)

plt.show()

print("Insights das funções de perda:")

print("- Squared Loss: penaliza muito outliers, gradiente linear")

print("- Huber Loss: robusta a outliers, combina squared e linear")

print("- Epsilon-Insensitive: ignora erros pequenos, útil para SVR")

Perguntas comuns sobre a matemática do SGD

“Por que o SGD usa apenas uma amostra por vez?”
Por eficiência computacional. Calcular o gradiente completo é O(n), enquanto o gradiente estocástico é O(1) por iteração. Além disso, a natureza ruidosa ajuda a escapar de mínimos locais.

“Como a taxa de aprendizado afeta a convergência?”
Muito alta: o algoritmo pode divergir ou oscilar. Muito baixa: converge muito devagar. A taxa ideal balanceia velocidade e estabilidade.

“Por que precisamos de regularização?”
Para prevenir overfitting penalizando coeficientes muito grandes. L1 cria esparsidade, L2 distribui os pesos.

“O SGD sempre converge para o mínimo global?”
Para funções convexas, sim. Para funções não-convexas, pode convergir para mínimos locais, mas a natureza estocástica ajuda a explorar melhor o espaço.

Entendendo a convergência matematicamente

Vamos analisar as condições matemáticas para convergência do SGD:

import numpy as np
import matplotlib.pyplot as plt

def analyze_convergence_conditions():
    """
    Analisa as condições matemáticas para convergência do SGD
    """
    print("Condições para convergência do SGD:")
    print("1. Função objetivo convexa")
    print("2. Gradiente Lipschitz contínuo")
    print("3. Taxa de aprendizado decrescente")
    print("4. ∑η_t = ∞ (exploração suficiente)")
    print("5. ∑η_t² < ∞ (ruído decrescente)")
    
    # Exemplo de taxas de aprendizado que satisfazem as condições
    t_values = np.arange(1, 101)
    learning_rates = {
        'ideal': 1.0 / t_values,
        'muito_devagar': 0.1 / np.sqrt(t_values),
        'muito_rapido': 1.0 / np.sqrt(t_values)
    }
    
    plt.figure(figsize=(10, 6))
    for label, rates in learning_rates.items():
        plt.plot(t_values, rates, label=label, linewidth=2)
    
    plt.xlabel('Iteração (t)')
    plt.ylabel('Taxa de Aprendizado (η_t)')
    plt.title('Evolução da Taxa de Aprendizado')
    plt.legend()
    plt.grid(True, alpha=0.3)
    plt.yscale('log')
    plt.show()
    
    # Verificando as condições de convergência
    ideal_rates = 1.0 / t_values
    condition_4 = np.sum(ideal_rates)  # Deve ser infinito (na prática, muito grande)
    condition_5 = np.sum(ideal_rates ** 2)  # Deve ser finito
    
    print(f"\nCondição 4 (∑η_t): {condition_4:.2f} (grande = bom)")
    print(f"Condição 5 (∑η_t²): {condition_5:.2f} (finita = bom)")

analyze_convergence_conditions()

import numpy as np

import matplotlib.pyplot as plt

def analyze_convergence_conditions():

"""

Analisa as condições matemáticas para convergência do SGD

"""

print("Condições para convergência do SGD:")

print("1. Função objetivo convexa")

print("2. Gradiente Lipschitz contínuo")

print("3. Taxa de aprendizado decrescente")

print("4. ∑η_t = ∞ (exploração suficiente)")

print("5. ∑η_t² < ∞ (ruído decrescente)")

# Exemplo de taxas de aprendizado que satisfazem as condições

t_values = np.arange(1, 101)

learning_rates = {

'ideal': 1.0 / t_values,

'muito_devagar': 0.1 / np.sqrt(t_values),

'muito_rapido': 1.0 / np.sqrt(t_values)

}

plt.figure(figsize=(10, 6))

for label, rates in learning_rates.items():

plt.plot(t_values, rates, label=label, linewidth=2)

plt.xlabel('Iteração (t)')

plt.ylabel('Taxa de Aprendizado (η_t)')

plt.title('Evolução da Taxa de Aprendizado')

plt.legend()

plt.grid(True, alpha=0.3)

plt.yscale('log')

plt.show()

# Verificando as condições de convergência

ideal_rates = 1.0 / t_values

condition_4 = np.sum(ideal_rates) # Deve ser infinito (na prática, muito grande)

condition_5 = np.sum(ideal_rates ** 2) # Deve ser finito

print(f"\nCondição 4 (∑η_t): {condition_4:.2f} (grande = bom)")

print(f"Condição 5 (∑η_t²): {condition_5:.2f} (finita = bom)")

analyze_convergence_conditions()

Próximos passos no entendimento matemático

Para aprofundar seu conhecimento matemático do SGD, explore estas direções:

Estude otimização convexa: understand condições de otimalidade e garantias de convergência
Aprenda sobre teoria de probabilidade: processos estocásticos e convergência quase certa
Explore variantes do SGD: momentum, Nesterov, AdaGrad, Adam
Pratique implementações do zero: recrie diferentes algoritmos de otimização
Estude análise de convergência: taxas de convergência e complexidade

Assuntos relacionados para aprofundar

Para dominar completamente a formulação matemática do SGD, estes tópicos são essenciais:

Cálculo multivariado: gradientes, derivadas parciais, matriz Hessiana
Álgebra linear: produtos internos, normas, autovalores/autovetores
Otimização convexa: convexidade, condições KKT, dualidade
Teoria da probabilidade: esperança, variância, leis dos grandes números
Análise numérica: estabilidade, condicionamento, precisão
Estatística matemática: estimação, propriedades assintóticas
Teoria da aprendizagem: generalização, complexidade, limites

Referências que valem a pena

Lembre-se: a matemática por trás do SGD não é apenas bonita – é incrivelmente prática. Cada vez que você ajusta um hiperparâmetro ou debuga um modelo que não converge, está aplicando esses conceitos matemáticos. Quanto mais você entender o “porquê”, mais eficaz será no “como” de construir modelos de machine learning!

Indice