Previsões realistas: como o GPR lida com dados imperfeitos do mundo real

Imagine que você está analisando os custos de produção de uma padaria. Alguns meses têm custos que parecem fora do padrão – talvez por causa de ingredientes com preços sazonais ou problemas operacionais. A Regressão por Processos Gaussianos (GPR) não só prevê custos futuros, mas também aprende automaticamente o quanto dessas variações são “ruído normal” versus padrões reais. É como ter um consultor financeiro que entende que nem toda flutuação significa uma mudança de tendência.

Como isso funciona na prática?

O GPR com estimativa de ruído modela explicitamente a incerteza nos seus dados. Enquanto métodos tradicionais tentam forçar uma linha perfeita através de pontos ruidosos, o GPR reconhece que os dados reais têm imperfeições. Ele separa o sinal verdadeiro (a tendência subjacente) do ruído (variações aleatórias). Quando você permite que o modelo estime o nível de ruído, ele se torna mais realista sobre o que pode e não pode prever com confiança. Diferentemente de métodos que assumem dados perfeitos, esta abordagem admite que o mundo real é barulhento e adapta-se accordingly.

Mãos na massa: GPR com estimativa automática de ruído

"""
Regressão por Processos Gaussianos com estimativa automática de ruído
Modela custos de produção considerando variações naturais e ruído de medição
"""

import numpy as np
import matplotlib.pyplot as plt
from sklearn.gaussian_process import GaussianProcessRegressor
from sklearn.gaussian_process.kernels import RBF, WhiteKernel

# Dados de custos mensais de produção com variações naturais
# Alguns meses têm flutuações maiores (ruído) devido a fatores sazonais
meses = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]).reshape(-1, 1)
custos = np.array([5200, 5100, 5800, 6200, 6500, 6300, 7200, 7800, 7500, 8200, 8500, 8400])

print("Dados de custos com variações naturais:")
for mes, custo in zip(meses, custos):
    print(f"Mês {mes[0]}: R$ {custo}")

# Kernel composto: RBF para tendência + WhiteKernel para ruído
kernel = RBF(length_scale=2.0) + WhiteKernel(noise_level=1000)

# GPR com estimativa automática de nível de ruído
gp = GaussianProcessRegressor(
    kernel=kernel,
    alpha=0.0,  # Zero porque o ruído já está no kernel
    n_restarts_optimizer=10
)

# Treinando o modelo
gp.fit(meses, custos)

print(f"\nKernel otimizado: {gp.kernel_}")
print(f"Nível de ruído estimado: {gp.kernel_.k2.noise_level:.2f}")

# Fazendo previsões
meses_futuros = np.array([[13], [14], [15]]).reshape(-1, 1)
custos_pred, sigma = gp.predict(meses_futuros, return_std=True)

print("\nPrevisões para próximos meses:")
for mes, pred, std in zip(meses_futuros, custos_pred, sigma):
    intervalo = 1.96 * std
    print(f"Mês {mes[0]}: R$ {pred:.0f} ± {intervalo:.0f}")

# Comparando com GPR sem estimativa de ruído
kernel_sem_ruido = RBF(length_scale=2.0)
gp_sem_ruido = GaussianProcessRegressor(kernel=kernel_sem_ruido)
gp_sem_ruido.fit(meses, custos)

# Visualizando a diferença
X_plot = np.linspace(1, 15, 100).reshape(-1, 1)
y_com_ruido, std_com_ruido = gp.predict(X_plot, return_std=True)
y_sem_ruido, std_sem_ruido = gp_sem_ruido.predict(X_plot, return_std=True)

plt.figure(figsize=(14, 8))

# Plot com estimativa de ruído
plt.subplot(1, 2, 1)
plt.plot(meses, custos, 'ro', markersize=8, label='Dados reais')
plt.plot(X_plot, y_com_ruido, 'b-', label='Previsão GPR')
plt.fill_between(X_plot.ravel(), y_com_ruido - 1.96*std_com_ruido, 
                y_com_ruido + 1.96*std_com_ruido, alpha=0.2, label='95% confiança')
plt.title('GPR com Estimativa de Ruído')
plt.xlabel('Mês')
plt.ylabel('Custo (R$)')
plt.legend()
plt.grid(True, alpha=0.3)

# Plot sem estimativa de ruído
plt.subplot(1, 2, 2)
plt.plot(meses, custos, 'ro', markersize=8, label='Dados reais')
plt.plot(X_plot, y_sem_ruido, 'g-', label='Previsão GPR')
plt.fill_between(X_plot.ravel(), y_sem_ruido - 1.96*std_sem_ruido, 
                y_sem_ruido + 1.96*std_sem_ruido, alpha=0.2, label='95% confiança')
plt.title('GPR sem Estimativa de Ruído')
plt.xlabel('Mês')
plt.ylabel('Custo (R$)')
plt.legend()
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

"""

Regressão por Processos Gaussianos com estimativa automática de ruído

Modela custos de produção considerando variações naturais e ruído de medição

"""

import numpy as np

import matplotlib.pyplot as plt

from sklearn.gaussian_process import GaussianProcessRegressor

from sklearn.gaussian_process.kernels import RBF, WhiteKernel

# Dados de custos mensais de produção com variações naturais

# Alguns meses têm flutuações maiores (ruído) devido a fatores sazonais

meses = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]).reshape(-1, 1)

custos = np.array([5200, 5100, 5800, 6200, 6500, 6300, 7200, 7800, 7500, 8200, 8500, 8400])

print("Dados de custos com variações naturais:")

for mes, custo in zip(meses, custos):

print(f"Mês {mes[0]}: R$ {custo}")

# Kernel composto: RBF para tendência + WhiteKernel para ruído

kernel = RBF(length_scale=2.0) + WhiteKernel(noise_level=1000)

# GPR com estimativa automática de nível de ruído

gp = GaussianProcessRegressor(

kernel=kernel,

alpha=0.0, # Zero porque o ruído já está no kernel

n_restarts_optimizer=10

)

# Treinando o modelo

gp.fit(meses, custos)

print(f"\nKernel otimizado: {gp.kernel_}")

print(f"Nível de ruído estimado: {gp.kernel_.k2.noise_level:.2f}")

# Fazendo previsões

meses_futuros = np.array([[13], [14], [15]]).reshape(-1, 1)

custos_pred, sigma = gp.predict(meses_futuros, return_std=True)

print("\nPrevisões para próximos meses:")

for mes, pred, std in zip(meses_futuros, custos_pred, sigma):

intervalo = 1.96 * std

print(f"Mês {mes[0]}: R$ {pred:.0f} ± {intervalo:.0f}")

# Comparando com GPR sem estimativa de ruído

kernel_sem_ruido = RBF(length_scale=2.0)

gp_sem_ruido = GaussianProcessRegressor(kernel=kernel_sem_ruido)

gp_sem_ruido.fit(meses, custos)

# Visualizando a diferença

X_plot = np.linspace(1, 15, 100).reshape(-1, 1)

y_com_ruido, std_com_ruido = gp.predict(X_plot, return_std=True)

y_sem_ruido, std_sem_ruido = gp_sem_ruido.predict(X_plot, return_std=True)

plt.figure(figsize=(14, 8))

# Plot com estimativa de ruído

plt.subplot(1, 2, 1)

plt.plot(meses, custos, 'ro', markersize=8, label='Dados reais')

plt.plot(X_plot, y_com_ruido, 'b-', label='Previsão GPR')

plt.fill_between(X_plot.ravel(), y_com_ruido - 1.96*std_com_ruido,

y_com_ruido + 1.96*std_com_ruido, alpha=0.2, label='95% confiança')

plt.title('GPR com Estimativa de Ruído')

plt.xlabel('Mês')

plt.ylabel('Custo (R$)')

plt.legend()

plt.grid(True, alpha=0.3)

# Plot sem estimativa de ruído

plt.subplot(1, 2, 2)

plt.plot(meses, custos, 'ro', markersize=8, label='Dados reais')

plt.plot(X_plot, y_sem_ruido, 'g-', label='Previsão GPR')

plt.fill_between(X_plot.ravel(), y_sem_ruido - 1.96*std_sem_ruido,

y_sem_ruido + 1.96*std_sem_ruido, alpha=0.2, label='95% confiança')

plt.title('GPR sem Estimativa de Ruído')

plt.xlabel('Mês')

plt.ylabel('Custo (R$)')

plt.legend()

plt.grid(True, alpha=0.3)

plt.tight_layout()

plt.show()

Os detalhes que fazem diferença

A estimativa automática de ruído no GPR é implementada através do WhiteKernel, que adiciona um componente diagonal à matriz de covariância. Este componente representa variações não explicadas pelo padrão subjacente. Contudo, o balanceamento entre o kernel de ruído e o kernel principal (como RBF) é crucial – muito ruído e o modelo ignora padrões reais, pouco ruído e ele superestima sua capacidade preditiva. Analogamente importante é entender que o ruído estimado captura tanto erro de medição quanto variações genuínas não modeladas. A escolha de alpha=0.0 quando se usa WhiteKernel é essencial, pois você já está modelando o ruído explicitamente.

WhiteKernel: Modela ruído independente e identicamente distribuído
Balanceamento: Encontre o trade-off entre flexibilidade e generalização
Interpretação: Ruído alto sugere dados muito variáveis ou modelo inadequado
Validação: Use log-likelihood marginal para comparar configurações

Perguntas que os iniciantes fazem

Você deve estar se perguntando: “Por que não usar sempre estimativa de ruído?” Excelente questão! Em dados muito limpos ou quando você sabe o nível de ruído experimental, especificá-lo manualmente pode ser melhor. Uma confusão comum é entre o parâmetro alpha e o WhiteKernel – eles são abordagens diferentes para o mesmo problema. Outra dúvida frequente: “Como interpretar o nível de ruído estimado?” Pense nele como a “granularidade” dos seus dados – valores altos significam que observações próximas podem ter valores muito diferentes, valores baixos sugerem dados mais suaves.

Para onde ir agora?

Experimente GPR com estimativa de ruído em seus próprios dados empresariais ou científicos. Compare resultados com e sem WhiteKernel, observando como as faixas de confiança mudam. Use a log-verossimilhança marginal para selecionar o melhor kernel. O momento “aha!” acontece quando você percebe que modelar o ruído explicitamente torna suas previsões não apenas mais precisas, mas também mais honestas sobre suas limitações.

Assuntos relacionados

Para dominar GPR com estimativa de ruído, estude estes conceitos:

Estatística bayesiana: inferência sobre parâmetros de ruído
Teoria de estimação: máxima verossimilhança e métodos bayesianos
Processos estocásticos: decomposição sinal-ruído
Otimização: maximização da verossimilhança marginal
Teoria da decisão: tomada de decisão sob incerteza

Referências que valem a pena

Indice