antonino, Autor em Área de Trampo

Categorias

Imagine que você está aprendendo a fazer pão pela primeira vez. Você pode seguir receitas mecanicamente, mas quando entende a ciência por trás – como o fermento produz gás carbônico, como o glúten desenvolve elasticidade, como o calor transforma a massa – você se torna um verdadeiro padeiro. Da mesma forma, entender a formulação matemática dos algoritmos transforma você de usuário para especialista em machine learning, permitindo ajustes criativos e solução de problemas complexos.

Como isso funciona na prática?

A formulação matemática é a linguagem universal que descreve como os algoritmos realmente funcionam. Enquanto as implementações em código mostram o “como”, a matemática explica o “porquê”. Por exemplo, o KNN parece simples conceitualmente, mas sua formulação matemática envolve otimização de distâncias em espaços multidimensionais. Analogamente, algoritmos como SVM usam conceitos avançados de geometria para encontrar o hiperplano ótimo que separa classes. Entender estas formulações permite que você escolha algoritmos de forma inteligente e ajuste parâmetros com propósito, não por tentativa e erro.

Mãos na massa: implementando a matemática do KNN

"""
Implementação da formulação matemática do KNN do zero
Demonstra os cálculos de distância e classificação por trás do algoritmo
"""

import numpy as np
from collections import Counter

class KNNMatematica:
    def __init__(self, k=3):
        self.k = k
    
    def distancia_euclidiana(self, ponto1, ponto2):
        """Calcula a distância euclidiana entre dois pontos"""
        # Fórmula: √Σ(x_i - y_i)²
        return np.sqrt(np.sum((ponto1 - ponto2) ** 2))
    
    def fit(self, X, y):
        """Armazena os dados de treinamento - algoritmo 'preguiçoso'"""
        self.X_treino = X
        self.y_treino = y
    
    def predict(self, X):
        """Faz previsões baseando-se nos k vizinhos mais próximos"""
        previsoes = []
        for ponto in X:
            # Calcula distâncias para todos os pontos de treinamento
            distancias = [self.distancia_euclidiana(ponto, x_treino) 
                         for x_treino in self.X_treino]
            
            # Encontra os índices dos k vizinhos mais próximos
            indices_vizinhos = np.argsort(distancias)[:self.k]
            
            # Obtém os rótulos dos vizinhos
            rotulos_vizinhos = [self.y_treino[i] for i in indices_vizinhos]
            
            # Encontra o rótulo mais comum (moda)
            rotulo_mais_comum = Counter(rotulos_vizinhos).most_common(1)[0][0]
            previsoes.append(rotulo_mais_comum)
        
        return np.array(previsoes)

# Dados de exemplo: características de pães [peso_farinha, tempo_fermentacao, temperatura]
X_treino = np.array([
    [500, 120, 25],  # Pão francês
    [300, 90, 28],   # Pão de forma
    [400, 180, 22],  # Pão integral
    [350, 100, 26],  # Pão de forma
    [450, 150, 23]   # Pão integral
])
y_treino = np.array(['francês', 'forma', 'integral', 'forma', 'integral'])

# Criando e treinando nosso KNN matemático
knn = KNNMatematica(k=3)
knn.fit(X_treino, y_treino)

# Novo pão para classificar
novo_pao = np.array([[380, 110, 26]])
previsao = knn.predict(novo_pao)

print(f"O novo pão foi classificado como: {previsao[0]}")
print("Baseado nos cálculos matemáticos de distância e votação dos vizinhos!")

"""

Implementação da formulação matemática do KNN do zero

Demonstra os cálculos de distância e classificação por trás do algoritmo

"""

import numpy as np

from collections import Counter

class KNNMatematica:

def __init__(self, k=3):

self.k = k

def distancia_euclidiana(self, ponto1, ponto2):

"""Calcula a distância euclidiana entre dois pontos"""

# Fórmula: √Σ(x_i - y_i)²

return np.sqrt(np.sum((ponto1 - ponto2) ** 2))

def fit(self, X, y):

"""Armazena os dados de treinamento - algoritmo 'preguiçoso'"""

self.X_treino = X

self.y_treino = y

def predict(self, X):

"""Faz previsões baseando-se nos k vizinhos mais próximos"""

previsoes = []

for ponto in X:

# Calcula distâncias para todos os pontos de treinamento

distancias = [self.distancia_euclidiana(ponto, x_treino)

for x_treino in self.X_treino]

# Encontra os índices dos k vizinhos mais próximos

indices_vizinhos = np.argsort(distancias)[:self.k]

# Obtém os rótulos dos vizinhos

rotulos_vizinhos = [self.y_treino[i] for i in indices_vizinhos]

# Encontra o rótulo mais comum (moda)

rotulo_mais_comum = Counter(rotulos_vizinhos).most_common(1)[0][0]

previsoes.append(rotulo_mais_comum)

return np.array(previsoes)

# Dados de exemplo: características de pães [peso_farinha, tempo_fermentacao, temperatura]

X_treino = np.array([

[500, 120, 25], # Pão francês

[300, 90, 28], # Pão de forma

[400, 180, 22], # Pão integral

[350, 100, 26], # Pão de forma

[450, 150, 23] # Pão integral

])

y_treino = np.array(['francês', 'forma', 'integral', 'forma', 'integral'])

# Criando e treinando nosso KNN matemático

knn = KNNMatematica(k=3)

knn.fit(X_treino, y_treino)

# Novo pão para classificar

novo_pao = np.array([[380, 110, 26]])

previsao = knn.predict(novo_pao)

print(f"O novo pão foi classificado como: {previsao[0]}")

print("Baseado nos cálculos matemáticos de distância e votação dos vizinhos!")

Os detalhes que fazem diferença

Entender a formulação matemática revela insights cruciais sobre o comportamento dos algoritmos. Por exemplo, a função de custo \(J(\theta) = \frac{1}{2m}\sum_{i=1}^{m}(h_\theta(x^{(i)}) – y^{(i)})^2\) na regressão linear mostra explicitamente que estamos minimizando o erro quadrático médio. Contudo, diferentes algoritmos otimizam diferentes funções: SVM maximiza margens, árvores de decisão maximizam ganho de informação. Analogamente importante é compreender as suposições matemáticas por trás de cada algoritmo; violá-las pode levar a resultados enganosos. A regularização, representada por termos como \(\lambda\sum_{j=1}^{n}\theta_j^2\), controla overfitting penalizando coeficientes grandes.

Funções de custo: Definem o que o algoritmo está tentando otimizar
Gradientes: Direcionam o aprendizado mostrando a direção de melhoria
Regularização: Controla complexidade e previne overfitting
Probabilidades: Fundamentam classificadores como Naive Bayes

Perguntas que os iniciantes fazem

Você deve estar se perguntando: “Preciso ser um gênio da matemática para usar machine learning?” Não necessariamente! Você pode usar bibliotecas sem entender toda a matemática, mas compreender os fundamentos torna você muito mais eficaz. Uma confusão comum é entre a formulação teórica e a implementação prática – a teoria assume condições ideais que raramente encontramos em dados reais. Outra dúvida frequente: “Por que tantos algoritmos usam cálculo e álgebra linear?” Porque essas ferramentas matemáticas são perfeitas para otimização em espaços multidimensionais, que é exatamente o que fazemos em machine learning.

Para onde ir agora?

Comece implementando versões simples dos algoritmos do zero, como fizemos com o KNN. Estude uma fórmula por vez, relacionando-a com o comportamento observado nos dados. Use visualizações para conectar conceitos abstratos com resultados concretos. O momento “aha!” acontece quando você consegue prever como um algoritmo se comportará apenas olhando para sua formulação matemática.

Assuntos relacionados

Para dominar as formulações matemáticas, estude estas áreas fundamentais:

Cálculo: derivadas, gradientes e otimização
Álgebra linear: espaços vetoriais, autovalores e decomposições
Probabilidade e estatística: distribuições, verossimilhança e inferência
Teoria da informação: entropia e ganho de informação
Otimização convexa: métodos para encontrar mínimos globais

Referências que valem a pena

Como isso funciona na prática?

A redução de dimensionalidade encontra as direções mais importantes nos seus dados e projeta tudo em um espaço menor. Pense nisso como fotografar uma floresta de diferentes ângulos: algumas fotos capturam a essência da floresta melhor que outras. Analogamente, algoritmos como PCA (Principal Component Analysis) identificam automaticamente os “melhores ângulos” para visualizar seus dados. Eles preservam a maior parte da informação original enquanto descartam redundâncias e ruídos. Diferentemente de simplesmente remover colunas, esta abordagem matemática cria novas características que são combinações inteligentes das originais.

Mãos na massa: simplificando dados de biodiversidade

"""
Redução de dimensionalidade para dados de biodiversidade
Transforma múltiplas características em dimensões principais para visualização
"""

from sklearn.decomposition import PCA
from sklearn.manifold import TSNE
from sklearn.preprocessing import StandardScaler
import numpy as np
import matplotlib.pyplot as plt

# Dados de espécies: [tamanho_cm, peso_g, envergadura_cm, longevidade_anos, taxa_reproducao]
dados_especies = np.array([
    [15, 25, 12, 2, 0.8],   # Borboleta pequena
    [8, 12, 7, 1, 0.9],     # Borboleta miniatura
    [25, 45, 20, 3, 0.6],   # Borboleta grande
    [12, 20, 10, 2, 0.7],   # Borboleta média
    [30, 60, 25, 4, 0.5],   # Borboleta gigante
    [6, 8, 5, 1, 0.95],     # Borboleta muito pequena
    [18, 30, 15, 2, 0.75],  # Borboleta médio-grande
    [22, 40, 18, 3, 0.65]   # Borboleta grande-média
])

# Normalizando os dados para dar peso igual a todas as características
scaler = StandardScaler()
dados_normalizados = scaler.fit_transform(dados_especies)

# Aplicando PCA para reduzir de 5 para 2 dimensões
pca = PCA(n_components=2)
dados_reduzidos = pca.fit_transform(dados_normalizados)

print(f"Variância explicada por cada componente: {pca.explained_variance_ratio_}")
print(f"Variância total explicada: {sum(pca.explained_variance_ratio_):.2%}")

# Visualizando os dados reduzidos
plt.figure(figsize=(10, 6))
plt.scatter(dados_reduzidos[:, 0], dados_reduzidos[:, 1], s=100, alpha=0.7)
plt.xlabel('Componente Principal 1')
plt.ylabel('Componente Principal 2')
plt.title('Espécies de Borboletas em 2 Dimensões')
plt.grid(True, alpha=0.3)
plt.show()

print("\nAgora você pode ver padrões que estavam escondidos nas 5 dimensões originais!")

"""

Redução de dimensionalidade para dados de biodiversidade

Transforma múltiplas características em dimensões principais para visualização

"""

from sklearn.decomposition import PCA

from sklearn.manifold import TSNE

from sklearn.preprocessing import StandardScaler

import numpy as np

import matplotlib.pyplot as plt

# Dados de espécies: [tamanho_cm, peso_g, envergadura_cm, longevidade_anos, taxa_reproducao]

dados_especies = np.array([

[15, 25, 12, 2, 0.8], # Borboleta pequena

[8, 12, 7, 1, 0.9], # Borboleta miniatura

[25, 45, 20, 3, 0.6], # Borboleta grande

[12, 20, 10, 2, 0.7], # Borboleta média

[30, 60, 25, 4, 0.5], # Borboleta gigante

[6, 8, 5, 1, 0.95], # Borboleta muito pequena

[18, 30, 15, 2, 0.75], # Borboleta médio-grande

[22, 40, 18, 3, 0.65] # Borboleta grande-média

])

# Normalizando os dados para dar peso igual a todas as características

scaler = StandardScaler()

dados_normalizados = scaler.fit_transform(dados_especies)

# Aplicando PCA para reduzir de 5 para 2 dimensões

pca = PCA(n_components=2)

dados_reduzidos = pca.fit_transform(dados_normalizados)

print(f"Variância explicada por cada componente: {pca.explained_variance_ratio_}")

print(f"Variância total explicada: {sum(pca.explained_variance_ratio_):.2%}")

# Visualizando os dados reduzidos

plt.figure(figsize=(10, 6))

plt.scatter(dados_reduzidos[:, 0], dados_reduzidos[:, 1], s=100, alpha=0.7)

plt.xlabel('Componente Principal 1')

plt.ylabel('Componente Principal 2')

plt.title('Espécies de Borboletas em 2 Dimensões')

plt.grid(True, alpha=0.3)

plt.show()

print("\nAgora você pode ver padrões que estavam escondidos nas 5 dimensões originais!")

Os detalhes que fazem diferença

Escolher a técnica correta de redução dimensional depende do seu objetivo específico. PCA é excelente para preservar variância global e lidar com dados linearmente correlacionados. Contudo, para dados não-lineares complexos, t-SNE ou UMAP podem revelar estruturas mais sutis. Analogamente importante é a normalização prévia dos dados; sem ela, características com escalas maiores dominarão completamente a análise. A decisão sobre quantas dimensões manter é crucial – muito poucas e você perde informação, muitas e não há ganho real de simplificação. Uma regra prática é manter componentes que capturem pelo menos 80-90% da variância total.

PCA: Melhor para dados lineares e preservação de variância global

t-SNE: Ideal para visualização e dados não-lineares complexos

UMAP: Mais rápido que t-SNE e preserva melhor a estrutura global

LDA: Excelente quando você tem rótulos e quer maximizar separação entre classes

Perguntas que os iniciantes fazem

Você deve estar se perguntando: “Como posso saber se estou perdendo informação importante ao reduzir dimensões?” Excelente questão! A variância explicada é sua melhor amiga aqui – ela mostra quanto da informação original cada componente preserva. Uma confusão comum é pensar que componentes principais correspondem diretamente às características originais; na verdade, eles são combinações matemáticas otimizadas. Outra dúvida frequente: “Quando devo usar redução dimensional?” Use-a para visualização, para acelerar outros algoritmos, para remover ruído, ou quando tiver mais características que amostras.

Para onde ir agora?

Experimente aplicar redução dimensional em seus próprios dados biológicos. Comece com PCA para entender os conceitos básicos, depois explore t-SNE para visualizações mais impressionantes. Compare diferentes números de componentes e observe como a variância explicada se comporta. O momento “aha!” acontece quando você vê clusters e padrões emergindo de dados que pareciam completamente caóticos nas dimensões originais.

Assuntos relacionados

Para aprofundar seu entendimento, estude estes conceitos matemáticos:

Álgebra linear: autovalores, autovetores e decomposição espectral

Estatística multivariada: covariância, correlação e análise fatorial

Geometria: projeções, distâncias e variedades

Teoria da informação: entropia e compressão de dados

Otimização: maximização de variância e preservação de estruturas

Referências que valem a pena

A matemática por trás da magia: desvendando as fórmulas dos algoritmos de machine learning

Como isso funciona na prática?

Mãos na massa: implementando a matemática do KNN

Os detalhes que fazem diferença

Perguntas que os iniciantes fazem

Para onde ir agora?

Assuntos relacionados

Referências que valem a pena

Enxergando a floresta além das árvores: como a redução de dimensionalidade simplifica dados complexos

Como isso funciona na prática?

Mãos na massa: simplificando dados de biodiversidade

Os detalhes que fazem diferença

Perguntas que os iniciantes fazem

Para onde ir agora?

Assuntos relacionados

Referências que valem a pena