Arquivo de previsoes - Área de Trampo

Imagine que você é um contador analisando os custos de produção de uma padaria. Você tem dados históricos dos custos mensais, mas precisa prever os custos futuros. Em vez de dar apenas um número exato, você quer saber: “Qual é a faixa provável de custos?” e “Quão confiante é essa previsão?” Processos Gaussianos fazem exatamente isso – eles não só preveem valores, mas também quantificam a incerteza dessas previsões, tornando-as muito mais úteis para tomada de decisão.

Como isso funciona na prática?

Processos Gaussianos (Gaussian Processes) modelam funções como distribuições sobre funções possíveis. Pense nisso como ter múltiplas linhas de tendência possíveis para seus dados, onde algumas são mais prováveis que outras. Quando você faz uma previsão, o processo gaussiano fornece tanto uma estimativa média quanto uma medida de incerteza (variância). Diferentemente de outros métodos que dão apenas uma resposta pontual, processos gaussianos respondem: “Baseado nos dados, a função provavelmente passa por aqui, mas poderia variar tanto para mais quanto para menos.”

Mãos na massa: prevendo custos de produção com incerteza

"""
Previsão de custos de produção usando Processos Gaussianos
Modela não apenas valores esperados, mas também a incerteza das previsões
"""

import numpy as np
import matplotlib.pyplot as plt
from sklearn.gaussian_process import GaussianProcessRegressor
from sklearn.gaussian_process.kernels import RBF, ConstantKernel as C

# Dados históricos de custos de produção de uma padaria
# [mês, custo_total] - meses consecutivos
X_treino = np.array([[1], [2], [3], [4], [5], [7], [8], [10]]).reshape(-1, 1)
y_treino = np.array([5200, 5400, 5800, 6200, 6500, 7200, 7800, 8500])

print("Dados históricos de custos:")
for i, (mes, custo) in enumerate(zip(X_treino, y_treino)):
    print(f"Mês {mes[0]}: R$ {custo}")

# Definindo o kernel (função de covariância)
# RBF (Radial Basis Function) + constante para modelar tendências
kernel = C(1.0, (1e-3, 1e3)) * RBF(1.0, (1e-2, 1e2))

# Criando e treinando o processo gaussiano
gp = GaussianProcessRegressor(kernel=kernel, n_restarts_optimizer=10)
gp.fit(X_treino, y_treino)

# Fazendo previsões para meses futuros
meses_futuros = np.array([[6], [9], [11], [12]]).reshape(-1, 1)
y_pred, sigma = gp.predict(meses_futuros, return_std=True)

print("\nPrevisões para meses futuros:")
for i, (mes, pred, std) in enumerate(zip(meses_futuros, y_pred, sigma)):
    intervalo_confianca = 1.96 * std  # 95% intervalo de confiança
    print(f"Mês {mes[0]}: R$ {pred:.0f} ± {intervalo_confianca:.0f}")
    print(f"   Faixa provável: R$ {pred - intervalo_confianca:.0f} - R$ {pred + intervalo_confianca:.0f}")

# Visualizando as previsões com incerteza
X_plot = np.linspace(1, 12, 100).reshape(-1, 1)
y_mean, y_std = gp.predict(X_plot, return_std=True)

plt.figure(figsize=(12, 6))
plt.plot(X_treino, y_treino, 'ro', markersize=8, label='Dados históricos')
plt.plot(X_plot, y_mean, 'b-', label='Previsão média')
plt.fill_between(X_plot.ravel(), 
                y_mean - 1.96*y_std, 
                y_mean + 1.96*y_std, 
                alpha=0.2, color='blue', label='95% intervalo de confiança')
plt.xlabel('Mês')
plt.ylabel('Custo de Produção (R$)')
plt.title('Previsão de Custos com Processo Gaussiano')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

"""

Previsão de custos de produção usando Processos Gaussianos

Modela não apenas valores esperados, mas também a incerteza das previsões

"""

import numpy as np

import matplotlib.pyplot as plt

from sklearn.gaussian_process import GaussianProcessRegressor

from sklearn.gaussian_process.kernels import RBF, ConstantKernel as C

# Dados históricos de custos de produção de uma padaria

# [mês, custo_total] - meses consecutivos

X_treino = np.array([[1], [2], [3], [4], [5], [7], [8], [10]]).reshape(-1, 1)

y_treino = np.array([5200, 5400, 5800, 6200, 6500, 7200, 7800, 8500])

print("Dados históricos de custos:")

for i, (mes, custo) in enumerate(zip(X_treino, y_treino)):

print(f"Mês {mes[0]}: R$ {custo}")

# Definindo o kernel (função de covariância)

# RBF (Radial Basis Function) + constante para modelar tendências

kernel = C(1.0, (1e-3, 1e3)) * RBF(1.0, (1e-2, 1e2))

# Criando e treinando o processo gaussiano

gp = GaussianProcessRegressor(kernel=kernel, n_restarts_optimizer=10)

gp.fit(X_treino, y_treino)

# Fazendo previsões para meses futuros

meses_futuros = np.array([[6], [9], [11], [12]]).reshape(-1, 1)

y_pred, sigma = gp.predict(meses_futuros, return_std=True)

print("\nPrevisões para meses futuros:")

for i, (mes, pred, std) in enumerate(zip(meses_futuros, y_pred, sigma)):

intervalo_confianca = 1.96 * std # 95% intervalo de confiança

print(f"Mês {mes[0]}: R$ {pred:.0f} ± {intervalo_confianca:.0f}")

print(f" Faixa provável: R$ {pred - intervalo_confianca:.0f} - R$ {pred + intervalo_confianca:.0f}")

# Visualizando as previsões com incerteza

X_plot = np.linspace(1, 12, 100).reshape(-1, 1)

y_mean, y_std = gp.predict(X_plot, return_std=True)

plt.figure(figsize=(12, 6))

plt.plot(X_treino, y_treino, 'ro', markersize=8, label='Dados históricos')

plt.plot(X_plot, y_mean, 'b-', label='Previsão média')

plt.fill_between(X_plot.ravel(),

y_mean - 1.96*y_std,

y_mean + 1.96*y_std,

alpha=0.2, color='blue', label='95% intervalo de confiança')

plt.xlabel('Mês')

plt.ylabel('Custo de Produção (R$)')

plt.title('Previsão de Custos com Processo Gaussiano')

plt.legend()

plt.grid(True, alpha=0.3)

plt.show()

Os detalhes que fazem diferença

A escolha do kernel é o aspecto mais importante dos processos gaussianos, pois ele define como o modelo entende similaridade entre pontos de dados. O kernel RBF é comum e assume que pontos próximos têm valores similares, mas existem dezenas de opções para diferentes tipos de dados. Contudo, processos gaussianos podem ser computacionalmente caros para grandes conjuntos de dados (complexidade $O(n^3)$), tornando-se impraticáveis acima de alguns milhares de pontos. Analogamente importante é entender que a incerteza capturada pelo modelo reflete apenas a incerteza devido à escassez de dados, não erros de medição ou variabilidade não modelada.

Kernel RBF: Bom para funções suaves e contínuas
Kernel Matérn: Mais flexível que RBF, controla suavidade
Escalabilidade: Limite prático around 1.000-10.000 pontos
Interpretação: Incerteza alta indica necessidade de mais dados

Perguntas que os iniciantes fazem

Você deve estar se perguntando: “Quando devo usar processos gaussianos em vez de regressão linear ou random forest?” Excelente questão! Use processos gaussianos quando a quantificação da incerteza for crucial para sua aplicação, ou quando você tiver poucos dados mas de alta qualidade. Uma confusão comum é pensar que a incerteza do processo gaussiano captura todos os tipos de erro – na verdade, ela só modela incerteza devido à escassez de dados. Outra dúvida frequente: “Por que a complexidade computacional é tão alta?” Porque o método envolve inverter matrizes de covariância que crescem com o quadrado do número de pontos.

Para onde ir agora?

Experimente processos gaussianos em problemas onde a incerteza é importante, como previsão de custos, análise de experimentos ou otimização de parâmetros. Comece com o kernel RBF padrão e depois explore outros kernels para diferentes tipos de padrões nos dados. Use a visualização da incerteza para identificar onde coletar mais dados. O momento “aha!” acontece quando você percebe o poder de tomar decisões considerando não apenas o que é mais provável, mas também o que poderia acontecer.

Assuntos relacionados

Para dominar processos gaussianos, estude estes conceitos matemáticos:

Estatística multivariada: distribuições normais multivariadas e covariância
Teoria de probabilidade: processos estocásticos e funções aleatórias
Álgebra linear: matrizes de covariância e decomposição espectral
Teoria de kernels: funções de covariância e espaços de Hilbert
Inferência bayesiana: atualização de crenças com novos dados

Previsões com incerteza: como processos gaussianos nos ajudam a tomar decisões melhores