Polinomial

1.1 – Supervisionado
1.1.1 – Regressao
1.1.1.3 – Polinomial
LEGENDA
Principal
Ramo
Metodo
Problemas
Modelo
Arquitetura

curvas que se ajustam à realidade

Regressão polinomial captura relações não lineares entre variáveis usando termos polinomiais. Em vez de uma linha reta, ela cria curvas que se adaptam a padrões mais complexos. Por exemplo, o crescimento populacional frequentemente segue uma curva exponencial, não linear. A equação inclui termos como x², x³, e assim por diante. Primeiramente, transformamos os dados originais adicionando essas novas características polinomiais. Depois, aplicamos os mesmos princípios da regressão linear nesse espaço expandido. Essa técnica permite modelar fenômenos com aceleração, decaimento ou sazonalidade.

grau do polinômio e complexidade

A escolha do grau do polinômio determina a flexibilidade e capacidade do modelo. Grau 1 produz uma linha reta (regressão linear simples tradicional). Grau 2 cria curvas parabólicas que capturam um ponto de máximo ou mínimo. Grau 3 permite curvas com ponto de inflexão e formas mais complexas. Primeiramente, graus mais altos oferecem maior capacidade de ajuste aos dados. Além disso, eles também aumentam o risco de sobreajuste significativo. O equilíbrio entre viés e variância orienta a escolha do grau ideal. Técnicas de validação cruzada ajudam a encontrar esse ponto de equilíbrio.

sobreajuste: o perigo das curvas exageradas

Sobreajuste ocorre quando o modelo se ajusta excessivamente aos ruídos dos dados de treinamento. Polinômios de alto grau podem criar curvas que passam exatamente por todos os pontos. Por exemplo, grau 10 em 11 pontos cria oscilações extremas sem sentido prático. Primeiramente, o modelo perde capacidade de generalização para novos dados não vistos. Além disso, curvas muito complexas não representam fenômenos reais do mundo. Técnicas de regularização adicionam penalidades para coeficientes muito altos no modelo. A validação cruzada revela quando a complexidade adicional deixa de trazer benefícios.

transformação de características na prática

Implementar regressão polinomial requer criar novas características a partir das variáveis originais. Primeiramente, elevamos a variável x às potências desejadas: x², x³, até o grau escolhido. Por exemplo, para grau 3 com variável x, criamos x, x² e x³. Além disso, podemos incluir termos de interação entre diferentes variáveis originais. O algoritmo de regressão linear trata esses novos termos como características independentes. Essa abordagem mantém a simplicidade computacional da regressão linear tradicional. A preparação adequada dos dados é essencial para o sucesso do modelo.

aplicações no mundo real

Regressão polinomial aparece em diversas aplicações onde relações não lineares são evidentes. Primeiramente, previsão de temperatura ao longo do dia segue padrões parabólicos característicos. Além disso, física de projéteis modela trajetórias com equações quadráticas precisas. Na economia, modelos de custo marginal frequentemente apresentam curvas em forma de U. Empresas de energia preveem consumo com padrões sazonais usando termos polinomiais. Na biologia, crescimento de populações segue curvas sigmoides que polinômios aproximam. Para iniciantes, regressão polinomial demonstra como curvas capturam padrões que retas não alcançam. É uma ferramenta poderosa para modelar a complexidade natural dos fenômenos.

Enunciado do Problema

Uma empresa de consultoria deseja criar um modelo preditivo para estimar o salário de funcionários com base nos anos de experiência profissional. Após analisar dados históricos, observou-se que a relação entre experiência e salário não é linear – profissionais mais experientes tendem a ter um crescimento salarial acelerado devido a promoções e especializações.   Objetivo: Desenvolver um modelo de Regressão Polinomial que capture essa relação não-linear e faça previsões precisas de salário para diferentes níveis de experiência. Dados disponíveis: 100 registros de funcionários contendo anos de experiência (0-15 anos) e salário correspondente (com pequenas variações naturais).
 

Características do Modelo de Regressão Polinomial

Relações Não-Lineares

Captura relações curvas entre variáveis, diferente da regressão linear que assume relação reta.

Transformação de Features

Cria novas características através de potências da variável original (X, X², X³, etc.).

Maior Flexibilidade

Consegue ajustar curvas complexas aos dados, melhorando a precisão em problemas reais.

Risco de Overfitting

Graus muito altos podem memorizar ruídos em vez de aprender o padrão geral.

Arquitetura do Modelo

A Regressão Polinomial tem a seguinte estrutura matemática:
f(x) = β₀ + β₁·x + β₂·x² + β₃·x³ + … + βₙ·xⁿ + ε

Para nosso exemplo (Grau 2):

Salário = β₀ + β₁·(Experiência) + β₂·(Experiência)² + erro

β₀ (Intercept)

Salário base quando experiência = 0 (ponto de partida).

β₁ (Coeficiente Linear)

Efeito linear da experiência no salário.

β₂ (Coeficiente Quadrático)

Captura a aceleração do crescimento salarial (curvatura).

ε (Erro)

Variação aleatória não explicada pelo modelo.  

Como funciona internamente:

1. Transforma a variável original X em [X, X², X³, …] 2. Aplica Regressão Linear Múltipla nessas novas features 3. O resultado é uma curva polinomial que se ajusta aos dados

⚙️ Hiperparâmetros do Modelo

Hiperparâmetro Valor no Exemplo Descrição Impacto
degree 2 (testado 1 a 4) Grau do polinômio (potência máxima) Determina a complexidade da curva
include_bias False Incluir ou não termo de bias (intercept) Evita colinearidade com o intercepto
interaction_only False Apenas interações entre features Útil para múltiplas variáveis
fit_intercept True Calcula o intercepto β₀ Permite deslocamento vertical da curva

Como escolher o grau ideal?

Grau 1 (Linear)

Muito simples, pode subajustar (underfitting) dados com curvatura.

Grau 2-3 (Ideal)

Bom equilíbrio entre viés e variância.

Grau Alto (10+)

Risco alto de overfitting – memoriza ruídos.  

📏 Métricas de Avaliação

 

R² (Coef. Determinação)

Mede quanto da variabilidade dos dados é explicada pelo modelo. Intervalo: 0 a 1 (quanto mais perto de 1, melhor)

MSE (Erro Quadrático Médio)

Média dos quadrados dos erros. Quanto menor, melhor – penaliza erros grandes.

RMSE (Raiz do MSE)

Erro na mesma unidade da variável alvo. Exemplo: RMSE = R$ 500 significa erro médio de R$500.  

📈 Resultados Esperados

Ao executar o código, você observará:
  • ✅ O modelo polinomial (grau 2) terá R² superior à regressão linear simples
  • ✅ A curva se ajustará melhor aos dados, capturando o crescimento acelerado
  • ✅ Gráficos mostrando visualmente a diferença entre os modelos
  • ✅ Comparação de diferentes graus para escolher o melhor
 

 Interpretação dos Coeficientes (exemplo):

Salário = 2000 + 500·X + 50·X² → Um funcionário com 5 anos de experiência: 2000 + 2500 + 1250 = R$ 5.750 → Um funcionário com 10 anos: 2000 + 5000 + 5000 = R$ 12.000

 Vantagens e Desvantagens

 

✅ Vantagens

  • Captura relações não-lineares complexas
  • Simples de implementar e interpretar
  • Baseado na regressão linear (computacionalmente eficiente)
  • Funciona bem para problemas com curvatura suave

❌ Desvantagens

  • Sensível a outliers
  • Risco de overfitting com graus altos
  • Não escala bem para muitas variáveis
  • Extrapolações podem ser perigosas

Deixe um comentário