IA Bayesiana - Área de Trampo

O que é a IA bayesiana?

A IA bayesiana é um ramo da inteligência artificial baseado no teorema de Bayes. Ela trata a incerteza de forma probabilística, atualizando crenças com novas evidências. Diferentemente da IA clássica, ela não produz respostas pontuais, mas distribuições de probabilidade. Cada predição vem acompanhada de um intervalo de confiança ou credibilidade. Isso é crucial para decisões críticas em medicina, finanças e robótica. A IA bayesiana incorpora conhecimento prévio (prior) e dados observados (likelihood). O resultado é uma distribuição a posteriori que combina ambas as fontes. Portanto, ela é naturalmente adaptativa e resistente a overfitting. Ela também permite aprendizado contínuo com a chegada de novos dados.

Características fundamentais da abordagem bayesiana

A IA bayesiana possui três pilares conceituais que a distinguem. Primeiro, a probabilidade é interpretada como grau de crença subjetiva. Segundo, o teorema de Bayes é a regra de atualização: P(A|B) = P(B|A)*P(A)/P(B). Terceiro, todas as inferências são feitas integrando sobre distribuições completas. Não há estimativas pontuais como máximo de verossimilhança sem incerteza. Além disso, a escolha do prior é fundamental e deve ser justificada. Prioris informativos aceleram a convergência; prioris fracos deixam os dados falar. A IA bayesiana também lida naturalmente com dados faltantes e hierárquicos. Ela é computacionalmente intensiva, mas métodos MCMC e variacionais aliviam isso.

Vantagens e aplicações típicas

A principal vantagem é a quantificação rigorosa da incerteza nas decisões. Isso é vital em sistemas autônomos que operam em ambientes ruidosos. Além disso, a IA bayesiana é interpretável, pois cada parâmetro tem um significado. Ela é usada em filtros de Kalman, redes bayesianas e otimização bayesiana. Também é aplicada em diagnóstico médico, detecção de fraudes e recomendação. Contudo, a escolha do prior pode ser subjetiva e influenciar os resultados. Ainda assim, a IA bayesiana é uma das abordagens mais fundamentais da estatística.

O teorema de Bayes foi formulado no século XVIII, mas sua aplicação em IA é recente. Com o aumento da capacidade computacional, ela se tornou viável em grande escala. Redes bayesianas modelam relações causais entre variáveis de forma gráfica. Cada nó é uma variável e cada aresta representa uma dependência probabilística. A inferência nessas redes é feita por propagação de crenças (belief propagation). Na otimização bayesiana, usa-se um modelo substituto (geralmente Gaussian Process). Ele guia a busca por máximos de funções caras de avaliar. A cada iteração, a função de aquisição equilibra exploração e explotação. Isso é amplamente usado em ajuste de hiperparâmetros de machine learning. A IA bayesiana também é a base de algoritmos de aprendizado por reforço. Ela permite que agentes aprendam políticas com incerteza sobre o ambiente. Sua robustez a ruído a torna superior a métodos determinísticos em muitos casos. Por fim, ela fornece intervalos de credibilidade, não apenas pontuações. Assim, a IA bayesiana é uma filosofia de modelagem tão poderosa quanto elegante.

Um exemplo clássico é o problema do diagnóstico médico com testes imperfeitos. Dada a prevalência de uma doença e a acurácia do teste, calcula-se a probabilidade pós-teste. O teorema de Bayes atualiza a crença inicial com o resultado do exame. Esse exemplo ilustra perfeitamente a essência da inferência bayesiana.

Enunciado do exemplo clássico

Implemente um classificador bayesiano ingênuo (Naive Bayes) para prever se um e-mail é spam. Use o conjunto de dados sintético com duas características: frequência de “grátis” e “urgente”. Gere 200 e-mails (100 spam, 100 não-spam) com distribuições Gaussianas. Treine o modelo calculando as probabilidades a priori e as verossimilhanças. Teste em 50 novos e-mails e plote a fronteira de decisão com os pontos de teste. Plote também a matriz de confusão e a acurácia do classificador.

import numpy as np  
import matplotlib.pyplot as plt  
from sklearn.naive_bayes import GaussianNB  
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay  

# Gerar dados sintéticos  
np.random.seed(42)  
n_train = 200  
n_test = 50  

# Spam: média alta para "grátis" e "urgente"  
spam_features = np.random.multivariate_normal([0.8, 0.7], [[0.1, 0.02], [0.02, 0.1]], n_train//2)  
# Não-spam: médias baixas  
nao_spam = np.random.multivariate_normal([0.2, 0.3], [[0.1, 0.02], [0.02, 0.1]], n_train//2)  

X_train = np.vstack([spam_features, nao_spam])  
y_train = np.array([1]*100 + [0]*100)  

# Dados de teste  
spam_test = np.random.multivariate_normal([0.8, 0.7], [[0.1, 0.02], [0.02, 0.1]], n_test//2)  
nao_spam_test = np.random.multivariate_normal([0.2, 0.3], [[0.1, 0.02], [0.02, 0.1]], n_test//2)  
X_test = np.vstack([spam_test, nao_spam_test])  
y_test = np.array([1]*25 + [0]*25)  

# Classificador Naive Bayes Gaussiano  
modelo = GaussianNB()  
modelo.fit(X_train, y_train)  
y_pred = modelo.predict(X_test)  
acuracia = np.mean(y_pred == y_test)  
print(f"Acurácia no teste: {acuracia:.2f}")  

# Matriz de confusão  
cm = confusion_matrix(y_test, y_pred)  

# Gráficos  
plt.figure(figsize=(12, 5))  

# 1. Fronteira de decisão  
plt.subplot(1, 2, 1)  
# Criar grade para plotar a fronteira  
x_min, x_max = X_train[:, 0].min()-0.2, X_train[:, 0].max()+0.2  
y_min, y_max = X_train[:, 1].min()-0.2, X_train[:, 1].max()+0.2  
xx, yy = np.meshgrid(np.linspace(x_min, x_max, 200),  
                     np.linspace(y_min, y_max, 200))  
Z = modelo.predict(np.c_[xx.ravel(), yy.ravel()])  
Z = Z.reshape(xx.shape)  
plt.contourf(xx, yy, Z, alpha=0.4, cmap='coolwarm', levels=2)  
# Plotar pontos de treino (transparentes) e teste (sólidos)  
plt.scatter(X_train[y_train==0,0], X_train[y_train==0,1], c='blue', alpha=0.3, label='Treino não-spam')  
plt.scatter(X_train[y_train==1,0], X_train[y_train==1,1], c='red', alpha=0.3, label='Treino spam')  
plt.scatter(X_test[y_test==0,0], X_test[y_test==0,1], c='blue', edgecolor='black', s=80, label='Teste não-spam')  
plt.scatter(X_test[y_test==1,0], X_test[y_test==1,1], c='red', edgecolor='black', s=80, label='Teste spam')  
plt.xlabel('Frequência de "grátis"')  
plt.ylabel('Frequência de "urgente"')  
plt.title('Fronteira de Decisão - Naive Bayes')  
plt.legend()  
plt.grid(True)  

# 2. Matriz de confusão  
plt.subplot(1, 2, 2)  
ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=['Não-spam', 'Spam']).plot(ax=plt.gca(), cmap='Blues')  
plt.title(f'Matriz de Confusão (Acurácia = {acuracia:.2f})')  
plt.tight_layout()  
plt.show()  

# Exemplo de inferência bayesiana manual (para um novo e-mail)  
novo_email = np.array([[0.6, 0.5]])  
prob_spam = modelo.predict_proba(novo_email)[0][1]  
print(f"\nNovo e-mail com grátis=0.6, urgente=0.5")  
print(f"Probabilidade de ser spam: {prob_spam:.3f}")  
print(f"Classificação: {'Spam' if prob_spam > 0.5 else 'Não-spam'}")

import numpy as np

import matplotlib.pyplot as plt

from sklearn.naive_bayes import GaussianNB

from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay

# Gerar dados sintéticos

np.random.seed(42)

n_train = 200

n_test = 50

# Spam: média alta para "grátis" e "urgente"

spam_features = np.random.multivariate_normal([0.8, 0.7], [[0.1, 0.02], [0.02, 0.1]], n_train//2)

# Não-spam: médias baixas

nao_spam = np.random.multivariate_normal([0.2, 0.3], [[0.1, 0.02], [0.02, 0.1]], n_train//2)

X_train = np.vstack([spam_features, nao_spam])

y_train = np.array([1]*100 + [0]*100)

# Dados de teste

spam_test = np.random.multivariate_normal([0.8, 0.7], [[0.1, 0.02], [0.02, 0.1]], n_test//2)

nao_spam_test = np.random.multivariate_normal([0.2, 0.3], [[0.1, 0.02], [0.02, 0.1]], n_test//2)

X_test = np.vstack([spam_test, nao_spam_test])

y_test = np.array([1]*25 + [0]*25)

# Classificador Naive Bayes Gaussiano

modelo = GaussianNB()

modelo.fit(X_train, y_train)

y_pred = modelo.predict(X_test)

acuracia = np.mean(y_pred == y_test)

print(f"Acurácia no teste: {acuracia:.2f}")

# Matriz de confusão

cm = confusion_matrix(y_test, y_pred)

# Gráficos

plt.figure(figsize=(12, 5))

# 1. Fronteira de decisão

plt.subplot(1, 2, 1)

# Criar grade para plotar a fronteira

x_min, x_max = X_train[:, 0].min()-0.2, X_train[:, 0].max()+0.2

y_min, y_max = X_train[:, 1].min()-0.2, X_train[:, 1].max()+0.2

xx, yy = np.meshgrid(np.linspace(x_min, x_max, 200),

np.linspace(y_min, y_max, 200))

Z = modelo.predict(np.c_[xx.ravel(), yy.ravel()])

Z = Z.reshape(xx.shape)

plt.contourf(xx, yy, Z, alpha=0.4, cmap='coolwarm', levels=2)

# Plotar pontos de treino (transparentes) e teste (sólidos)

plt.scatter(X_train[y_train==0,0], X_train[y_train==0,1], c='blue', alpha=0.3, label='Treino não-spam')

plt.scatter(X_train[y_train==1,0], X_train[y_train==1,1], c='red', alpha=0.3, label='Treino spam')

plt.scatter(X_test[y_test==0,0], X_test[y_test==0,1], c='blue', edgecolor='black', s=80, label='Teste não-spam')

plt.scatter(X_test[y_test==1,0], X_test[y_test==1,1], c='red', edgecolor='black', s=80, label='Teste spam')

plt.xlabel('Frequência de "grátis"')

plt.ylabel('Frequência de "urgente"')

plt.title('Fronteira de Decisão - Naive Bayes')

plt.legend()

plt.grid(True)

# 2. Matriz de confusão

plt.subplot(1, 2, 2)

ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=['Não-spam', 'Spam']).plot(ax=plt.gca(), cmap='Blues')

plt.title(f'Matriz de Confusão (Acurácia = {acuracia:.2f})')

plt.tight_layout()

plt.show()

# Exemplo de inferência bayesiana manual (para um novo e-mail)

novo_email = np.array([[0.6, 0.5]])

prob_spam = modelo.predict_proba(novo_email)[0][1]

print(f"\nNovo e-mail com grátis=0.6, urgente=0.5")

print(f"Probabilidade de ser spam: {prob_spam:.3f}")

print(f"Classificação: {'Spam' if prob_spam > 0.5 else 'Não-spam'}")

Este código usa o Gaussian Naive Bayes do scikit-learn para classificação. A fronteira de decisão mostra como o modelo separa as duas classes. A matriz de confusão revela o desempenho detalhado do classificador. O exemplo final demonstra a inferência probabilística para um novo e-mail. Para iniciantes, este exemplo conecta o teorema de Bayes à prática. A IA bayesiana é, portanto, uma abordagem fundamental e acessível.

Indice

O que é a IA bayesiana?

Características fundamentais da abordagem bayesiana

Vantagens e aplicações típicas

Enunciado do exemplo clássico

Deixe um comentário Cancelar resposta