Arquivo de Python - Página 4 de 90

A Fronteira Invisível: O que é Classificação Binária?

Imagine que você tem feijões e grãos de milho espalhados sobre uma mesa. O objetivo é traçar uma linha reta que separe perfeitamente os dois tipos de alimento. Esse é o trabalho da classificação binária: um algoritmo supervisionado que aprende a categorizar dados em dois grupos. A máquina analisa exemplos pré-rotulados para entender as características de cada grupo. Depois, ao receber um novo dado, ela decide em qual lado da “fronteira” ele se encaixa. O grande desafio? No mundo real, os dados raramente são organizados.

import numpy as np
import matplotlib.pyplot as plt
from sklearn import svm
from sklearn.datasets import make_blobs

# Gerando dados simulados
X, y = make_blobs(n_samples=50, centers=2, random_state=6, cluster_std=1.5)

# Criando uma malha para plotar as fronteiras
x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.02),
                     np.arange(y_min, y_max, 0.02))

# Configurando a figura com 3 subplots
plt.figure(figsize=(15, 4))

# Testando diferentes valores de C
for i, C in enumerate([0.1, 1, 100]):
    # Criando e treinando o classificador SVM linear
    clf = svm.SVC(kernel='linear', C=C)
    clf.fit(X, y)
    
    # Plotando a fronteira de decisão
    Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)
    
    plt.subplot(1, 3, i + 1)
    plt.contourf(xx, yy, Z, alpha=0.3, cmap=plt.cm.Paired)
    plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap=plt.cm.Paired, edgecolors='k')
    
    # Destacando os vetores de suporte
    plt.scatter(clf.support_vectors_[:, 0], clf.support_vectors_[:, 1], 
                s=200, facecolors='none', edgecolors='red', linewidth=2)
    
    plt.title(f'SVM Linear com C = {C}')
    plt.xlabel('Característica 1')
    plt.ylabel('Característica 2')

plt.tight_layout()
plt.show()

import numpy as np

import matplotlib.pyplot as plt

from sklearn import svm

from sklearn.datasets import make_blobs

# Gerando dados simulados

X, y = make_blobs(n_samples=50, centers=2, random_state=6, cluster_std=1.5)

# Criando uma malha para plotar as fronteiras

x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1

y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1

xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.02),

np.arange(y_min, y_max, 0.02))

# Configurando a figura com 3 subplots

plt.figure(figsize=(15, 4))

# Testando diferentes valores de C

for i, C in enumerate([0.1, 1, 100]):

# Criando e treinando o classificador SVM linear

clf = svm.SVC(kernel='linear', C=C)

clf.fit(X, y)

# Plotando a fronteira de decisão

Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])

Z = Z.reshape(xx.shape)

plt.subplot(1, 3, i + 1)

plt.contourf(xx, yy, Z, alpha=0.3, cmap=plt.cm.Paired)

plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap=plt.cm.Paired, edgecolors='k')

# Destacando os vetores de suporte

plt.scatter(clf.support_vectors_[:, 0], clf.support_vectors_[:, 1],

s=200, facecolors='none', edgecolors='red', linewidth=2)

plt.title(f'SVM Linear com C = {C}')

plt.xlabel('Característica 1')

plt.ylabel('Característica 2')

plt.tight_layout()

plt.show()

O SVM e a Dança das Margens: Encontrando a Melhor Reta

O SVM não busca apenas qualquer linha; ele procura a mais inteligente. Ele desenha a reta que não só separa os grupos, mas que fique o mais distante possível dos elementos de cada lado. Essa distância é a “margem”. Os pontos na borda dela são os “vetores de suporte” — os dados críticos para a fronteira. Ao maximizar essa margem, o algoritmo cria uma zona de segurança que aumenta a generalização do modelo. Ele se torna mais robusto ao classificar novos dados. Portanto, o SVM busca a fronteira com maior proteção contra erros futuros.

import numpy as np
import matplotlib.pyplot as plt
from sklearn import svm
from sklearn.datasets import make_circles

# Gerando dados em formato de círculos concêntricos
X, y = make_circles(n_samples=100, noise=0.1, factor=0.3, random_state=42)

# Criando a malha para visualização
x_min, x_max = X[:, 0].min() - 0.5, X[:, 0].max() + 0.5
y_min, y_max = X[:, 1].min() - 0.5, X[:, 1].max() + 0.5
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.02),
                     np.arange(y_min, y_max, 0.02))

# Configurando a figura
plt.figure(figsize=(15, 4))

# Testando diferentes kernels
kernels = ['linear', 'poly', 'rbf']
titles = ['Kernel Linear (Fracasso)', 'Kernel Polinomial (Tentativa)', 'Kernel RBF (Sucesso)']

for i, (kernel, title) in enumerate(zip(kernels, titles)):
    # Criando e treinando o SVM com o kernel especificado
    clf = svm.SVC(kernel=kernel, degree=3, gamma='scale', C=1)
    clf.fit(X, y)
    
    # Plotando a fronteira de decisão
    Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)
    
    plt.subplot(1, 3, i + 1)
    plt.contourf(xx, yy, Z, alpha=0.3, cmap=plt.cm.Paired)
    plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap=plt.cm.Paired, edgecolors='k')
    
    # Destacando os vetores de suporte
    plt.scatter(clf.support_vectors_[:, 0], clf.support_vectors_[:, 1], 
                s=200, facecolors='none', edgecolors='red', linewidth=2)
    
    plt.title(title)
    plt.xlabel('Característica 1')
    plt.ylabel('Característica 2')

plt.tight_layout()
plt.show()

import numpy as np

import matplotlib.pyplot as plt

from sklearn import svm

from sklearn.datasets import make_circles

# Gerando dados em formato de círculos concêntricos

X, y = make_circles(n_samples=100, noise=0.1, factor=0.3, random_state=42)

# Criando a malha para visualização

x_min, x_max = X[:, 0].min() - 0.5, X[:, 0].max() + 0.5

y_min, y_max = X[:, 1].min() - 0.5, X[:, 1].max() + 0.5

xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.02),

np.arange(y_min, y_max, 0.02))

# Configurando a figura

plt.figure(figsize=(15, 4))

# Testando diferentes kernels

kernels = ['linear', 'poly', 'rbf']

titles = ['Kernel Linear (Fracasso)', 'Kernel Polinomial (Tentativa)', 'Kernel RBF (Sucesso)']

for i, (kernel, title) in enumerate(zip(kernels, titles)):

# Criando e treinando o SVM com o kernel especificado

clf = svm.SVC(kernel=kernel, degree=3, gamma='scale', C=1)

clf.fit(X, y)

# Plotando a fronteira de decisão

Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])

Z = Z.reshape(xx.shape)

plt.subplot(1, 3, i + 1)

plt.contourf(xx, yy, Z, alpha=0.3, cmap=plt.cm.Paired)

plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap=plt.cm.Paired, edgecolors='k')

# Destacando os vetores de suporte

plt.scatter(clf.support_vectors_[:, 0], clf.support_vectors_[:, 1],

s=200, facecolors='none', edgecolors='red', linewidth=2)

plt.title(title)

plt.xlabel('Característica 1')

plt.ylabel('Característica 2')

plt.tight_layout()

plt.show()

O “Truque do Kernel”: Quando uma Reta Não é Suficiente

A vida real, porém, apresenta dados que não são linearmente separáveis. Surge então o “kernel trick”, a grande sacada do SVM. Em vez de desenhar uma curva complexa, o kernel faz uma transformação: projeta os dados para uma dimensão superior, adicionando uma nova perspectiva. Pontos em círculo no 2D podem ser separados por um plano no 3D. O “truque” é que essa mágica acontece sem cálculos custosos. A operação é implícita e eficiente. Por fim, ao projetar o plano de volta, ele se torna uma fronteira curva e precisa no espaço original.

import numpy as np
import matplotlib.pyplot as plt
from sklearn import svm
from sklearn.datasets import make_circles
from mpl_toolkits.mplot3d import Axes3D

# 1. Gerando dados não-linearmente separáveis (círculos concêntricos)
X, y = make_circles(n_samples=150, noise=0.1, factor=0.3, random_state=42)

# 2. Criando e treinando o SVM com kernel RBF
clf = svm.SVC(kernel='rbf', gamma=2, C=1)
clf.fit(X, y)

# 3. Criando uma malha para visualizar a fronteira de decisão 2D
x_min, x_max = X[:, 0].min() - 0.5, X[:, 0].max() + 0.5
y_min, y_max = X[:, 1].min() - 0.5, X[:, 1].max() + 0.5
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.02),
                     np.arange(y_min, y_max, 0.02))

# 4. Predizendo para cada ponto da malha
Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)

# 5. Plotando a fronteira de decisão 2D
plt.figure(figsize=(15, 5))

plt.subplot(1, 3, 1)
plt.contourf(xx, yy, Z, alpha=0.3, cmap=plt.cm.Paired)
plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap=plt.cm.Paired, edgecolors='k')
plt.scatter(clf.support_vectors_[:, 0], clf.support_vectors_[:, 1], 
            s=200, facecolors='none', edgecolors='red', linewidth=2, label='Vetores de Suporte')
plt.title('SVM com Kernel RBF - Fronteira de Decisão')
plt.xlabel('Característica 1')
plt.ylabel('Característica 2')
plt.legend()

# 6. Visualizando o efeito do kernel trick: projeção em 3D
# Adicionando uma terceira dimensão artificial para demonstrar o conceito
# Na prática, o kernel RBF usa uma transformação mais complexa, mas esta é uma ilustração didática
r = np.exp(-(X**2).sum(1))  # Transformação radial simples para visualização

ax = plt.subplot(1, 3, 2, projection='3d')
ax.scatter(X[:, 0], X[:, 1], r, c=y, s=50, cmap=plt.cm.Paired, edgecolors='k')
ax.set_title('Dados Projetados em 3D\n(Visualização Didática)')
ax.set_xlabel('X1')
ax.set_ylabel('X2')
ax.set_zlabel('Dimensão Extra')

# 7. Plotando a superfície de decisão em 3D
# Criando a malha 3D
xx_3d, yy_3d = np.meshgrid(np.linspace(x_min, x_max, 30),
                           np.linspace(y_min, y_max, 30))
zz_3d = np.exp(-(xx_3d**2 + yy_3d**2))  # A mesma transformação radial

# Calculando a decisão para cada ponto da malha
Z_3d = clf.decision_function(np.c_[xx_3d.ravel(), yy_3d.ravel()])
Z_3d = Z_3d.reshape(xx_3d.shape)

ax2 = plt.subplot(1, 3, 3, projection='3d')
ax2.plot_surface(xx_3d, yy_3d, zz_3d, facecolors=plt.cm.Paired(0.5 + 0.5 * (Z_3d > 0).astype(float)), 
                 alpha=0.5, rstride=1, cstride=1)
ax2.scatter(X[:, 0], X[:, 1], np.exp(-(X**2).sum(1)), c=y, s=50, cmap=plt.cm.Paired, edgecolors='k')
ax2.set_title('Superfície de Decisão no Espaço Transformado')
ax2.set_xlabel('X1')
ax2.set_ylabel('X2')
ax2.set_zlabel('Dimensão Extra')

plt.tight_layout()
plt.show()

# 8. Exibindo informações sobre o modelo
print(f"Número de vetores de suporte: {len(clf.support_vectors_)}")
print(f"Acurácia no treinamento: {clf.score(X, y):.2f}")

import numpy as np

import matplotlib.pyplot as plt

from sklearn import svm

from sklearn.datasets import make_circles

from mpl_toolkits.mplot3d import Axes3D

# 1. Gerando dados não-linearmente separáveis (círculos concêntricos)

X, y = make_circles(n_samples=150, noise=0.1, factor=0.3, random_state=42)

# 2. Criando e treinando o SVM com kernel RBF

clf = svm.SVC(kernel='rbf', gamma=2, C=1)

clf.fit(X, y)

# 3. Criando uma malha para visualizar a fronteira de decisão 2D

x_min, x_max = X[:, 0].min() - 0.5, X[:, 0].max() + 0.5

y_min, y_max = X[:, 1].min() - 0.5, X[:, 1].max() + 0.5

xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.02),

np.arange(y_min, y_max, 0.02))

# 4. Predizendo para cada ponto da malha

Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])

Z = Z.reshape(xx.shape)

# 5. Plotando a fronteira de decisão 2D

plt.figure(figsize=(15, 5))

plt.subplot(1, 3, 1)

plt.contourf(xx, yy, Z, alpha=0.3, cmap=plt.cm.Paired)

plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap=plt.cm.Paired, edgecolors='k')

plt.scatter(clf.support_vectors_[:, 0], clf.support_vectors_[:, 1],

s=200, facecolors='none', edgecolors='red', linewidth=2, label='Vetores de Suporte')

plt.title('SVM com Kernel RBF - Fronteira de Decisão')

plt.xlabel('Característica 1')

plt.ylabel('Característica 2')

plt.legend()

# 6. Visualizando o efeito do kernel trick: projeção em 3D

# Adicionando uma terceira dimensão artificial para demonstrar o conceito

# Na prática, o kernel RBF usa uma transformação mais complexa, mas esta é uma ilustração didática

r = np.exp(-(X**2).sum(1)) # Transformação radial simples para visualização

ax = plt.subplot(1, 3, 2, projection='3d')

ax.scatter(X[:, 0], X[:, 1], r, c=y, s=50, cmap=plt.cm.Paired, edgecolors='k')

ax.set_title('Dados Projetados em 3D\n(Visualização Didática)')

ax.set_xlabel('X1')

ax.set_ylabel('X2')

ax.set_zlabel('Dimensão Extra')

# 7. Plotando a superfície de decisão em 3D

# Criando a malha 3D

xx_3d, yy_3d = np.meshgrid(np.linspace(x_min, x_max, 30),

np.linspace(y_min, y_max, 30))

zz_3d = np.exp(-(xx_3d**2 + yy_3d**2)) # A mesma transformação radial

# Calculando a decisão para cada ponto da malha

Z_3d = clf.decision_function(np.c_[xx_3d.ravel(), yy_3d.ravel()])

Z_3d = Z_3d.reshape(xx_3d.shape)

ax2 = plt.subplot(1, 3, 3, projection='3d')

ax2.plot_surface(xx_3d, yy_3d, zz_3d, facecolors=plt.cm.Paired(0.5 + 0.5 * (Z_3d > 0).astype(float)),

alpha=0.5, rstride=1, cstride=1)

ax2.scatter(X[:, 0], X[:, 1], np.exp(-(X**2).sum(1)), c=y, s=50, cmap=plt.cm.Paired, edgecolors='k')

ax2.set_title('Superfície de Decisão no Espaço Transformado')

ax2.set_xlabel('X1')

ax2.set_ylabel('X2')

ax2.set_zlabel('Dimensão Extra')

plt.tight_layout()

plt.show()

# 8. Exibindo informações sobre o modelo

print(f"Número de vetores de suporte: {len(clf.support_vectors_)}")

print(f"Acurácia no treinamento: {clf.score(X, y):.2f}")

Os parâmetros de um modelo são estimados considerando a diferença entre o valor de treinamento e o valor previsto. Esse cálculo é realizado por uma função de perda (loss function) e o objetivo do estimador é minimizar essa função de perda.

# ============================================
# 6. AVALIAÇÃO DOS MODELOS
# ============================================
def avaliar_modelo(y_true, y_pred, nome_modelo, conjunto):
    """Função para avaliar métricas do modelo"""
    r2 = r2_score(y_true, y_pred)
    rmse = np.sqrt(mean_squared_error(y_true, y_pred))
    mae = mean_absolute_error(y_true, y_pred)
    mape = np.mean(np.abs((y_true - y_pred) / y_true)) * 100
 
    print(f"\n{conjunto} - {nome_modelo}:")
    print(f"  R² Score: {r2:.4f}")
    print(f"  RMSE: R$ {rmse:,.2f}")
    print(f"  MAE: R$ {mae:,.2f}")
    print(f"  MAPE: {mape:.2f}%")
 
    return r2, rmse, mae, mape
 
print("\n" + "=" * 60)
print("AVALIAÇÃO DOS MODELOS")
print("=" * 60)
 
# Avaliando modelos
print("\n📊 MODELO SEM NORMALIZAÇÃO:")
r2_train_sem, rmse_train_sem, mae_train_sem, mape_train_sem = avaliar_modelo(
    y_train, y_pred_train_sem, "Linear Regression", "TREINO"
)
r2_test_sem, rmse_test_sem, mae_test_sem, mape_test_sem = avaliar_modelo(
    y_test, y_pred_test_sem, "Linear Regression", "TESTE"
)
 
print("\n📊 MODELO COM NORMALIZAÇÃO:")
r2_train_com, rmse_train_com, mae_train_com, mape_train_com = avaliar_modelo(
    y_train, y_pred_train_com, "Linear Regression (com scaler)", "TREINO"
)
r2_test_com, rmse_test_com, mae_test_com, mape_test_com = avaliar_modelo(
    y_test, y_pred_test_com, "Linear Regression (com scaler)", "TESTE"
)

# ============================================

# 6. AVALIAÇÃO DOS MODELOS

# ============================================

def avaliar_modelo(y_true, y_pred, nome_modelo, conjunto):

"""Função para avaliar métricas do modelo"""

r2 = r2_score(y_true, y_pred)

rmse = np.sqrt(mean_squared_error(y_true, y_pred))

mae = mean_absolute_error(y_true, y_pred)

mape = np.mean(np.abs((y_true - y_pred) / y_true)) * 100

print(f"\n{conjunto} - {nome_modelo}:")

print(f" R² Score: {r2:.4f}")

print(f" RMSE: R$ {rmse:,.2f}")

print(f" MAE: R$ {mae:,.2f}")

print(f" MAPE: {mape:.2f}%")

return r2, rmse, mae, mape

print("\n" + "=" * 60)

print("AVALIAÇÃO DOS MODELOS")

print("=" * 60)

# Avaliando modelos

print("\n📊 MODELO SEM NORMALIZAÇÃO:")

r2_train_sem, rmse_train_sem, mae_train_sem, mape_train_sem = avaliar_modelo(

y_train, y_pred_train_sem, "Linear Regression", "TREINO"

)

r2_test_sem, rmse_test_sem, mae_test_sem, mape_test_sem = avaliar_modelo(

y_test, y_pred_test_sem, "Linear Regression", "TESTE"

)

print("\n📊 MODELO COM NORMALIZAÇÃO:")

r2_train_com, rmse_train_com, mae_train_com, mape_train_com = avaliar_modelo(

y_train, y_pred_train_com, "Linear Regression (com scaler)", "TREINO"

)

r2_test_com, rmse_test_com, mae_test_com, mape_test_com = avaliar_modelo(

y_test, y_pred_test_com, "Linear Regression (com scaler)", "TESTE"

)

A Bússola do Aprendizado: O Papel das Métricas de Avaliação

Ensinar uma máquina a realizar tarefas envolve um processo de tentativa e erro. O modelo começa fazendo previsões aleatórias, mas precisa de um mecanismo para avaliar a qualidade desses palpites. As funções de perda e as métricas de avaliação oferecem exatamente essa ferramenta. Elas calculam a discrepância entre a saída prevista pelo modelo e o valor real esperado. Durante o treinamento, buscamos minimizar esse valor de perda, ajustando os parâmetros internos do modelo. Portanto, a função de perda funciona como uma bússola, indicando a direção que o algoritmo deve seguir para melhorar. A escolha da métrica correta, porém, representa um passo determinante para interpretar o desempenho final. Diferentes problemas exigem diferentes formas de medir o erro. Consequentemente, utilizar a métrica inadequada pode mascarar problemas e comprometer a confiabilidade do modelo.

MSE e MAE: Para Medir Erros em Regressões

Em problemas de regressão, onde prever um valor numérico contínuo é o objetivo, duas métricas se destacam. O mean_squared_error (MSE) calcula a média dos quadrados das diferenças entre os valores previstos e os reais. Por elevar os erros ao quadrado, essa métrica penaliza fortemente erros grandes, tornando-a mais sensível a outliers. Os desenvolvedores frequentemente a utilizam como função de perda durante o treinamento. Por outro lado, o mean_absolute_error (MAE) calcula a média dos valores absolutos das diferenças. Ele trata todos os erros de forma linear, sendo mais robusto a outliers. Para a avaliação final do modelo, muitos preferem o MAE quando os dados contêm valores discrepantes que não devem receber peso excessivo. A decisão entre um e outro depende, portanto, da presença e do tratamento desejado para esses pontos atípicos.

MAPE: Compreendendo o Erro Percentual

O mape (Mean Absolute Percentage Error) oferece outra perspectiva valiosa para regressão. Diferente do MSE e do MAE, que fornecem o erro na mesma unidade da variável alvo, o MAPE expressa o erro como uma porcentagem. Para calculá-lo, tiramos a média da diferença absoluta entre o valor real e o previsto, dividindo pelo valor real. Essa métrica se mostra extremamente útil para comunicar resultados a um público não técnico. “O modelo erra, em média, 5% para mais ou para menos” — essa frase exemplifica sua fácil interpretação. No entanto, precisamos ter cautela. O MAPE pode se tornar instável quando os valores reais são muito próximos de zero, pois ocorre uma divisão por um número muito pequeno. Ele se adequa melhor a conjuntos de dados onde a variável alvo mantém uma escala positiva e consistente.

R2 Score: Medindo a Qualidade do Ajuste

O r2_score, ou Coeficiente de Determinação, oferece uma perspectiva diferente sobre a qualidade do modelo de regressão. Em vez de medir a magnitude do erro, ele indica a proporção da variância dos dados que o modelo explica. O valor do R² geralmente varia entre 0 e 1. Um score de 1 significa que o modelo prevê perfeitamente todos os dados. Um score de 0 indica que o modelo não melhora a simples previsão pela média dos valores. Valores negativos também podem aparecer, sugerindo um modelo muito ruim. Essa métrica se mostra particularmente útil para comparar diferentes modelos e entender seu poder de capturar relações entre variáveis. Porém, adicionar variáveis irrelevantes ao modelo pode artificialmente elevar o R². Por essa razão, os profissionais frequentemente o utilizam em conjunto com outras métricas e técnicas de validação.

Será que é possível melhorar?

Uma tentativa é colocar mais dados de treinamento para aumentar a acurácia do modelo.

Fronteira de Decisão com SVM

A Fronteira Invisível: O que é Classificação Binária?

O SVM e a Dança das Margens: Encontrando a Melhor Reta

O “Truque do Kernel”: Quando uma Reta Não é Suficiente

Funções de Perda

A Bússola do Aprendizado: O Papel das Métricas de Avaliação

MSE e MAE: Para Medir Erros em Regressões

MAPE: Compreendendo o Erro Percentual

R2 Score: Medindo a Qualidade do Ajuste

Será que é possível melhorar?