Modelos Lineares Generalizados: Regressão logística

Anteriormente exploramos diversos algoritmos de regressão linear. Analogamente, a Regressão Logística é uma técnica fundamental para problemas de classificação, apesar do nome sugerir regressão. Decerto, ela modela a probabilidade de uma observação pertencer a uma determinada classe.

Conceito Fundamental da Regressão Logística

Primordialmente, a regressão logística utiliza uma função sigmoide para mapear saídas lineares em probabilidades entre 0 e 1. Similarmente aos modelos lineares, ela encontra uma combinação linear das features, mas aplica uma transformação não-linear para produzir probabilidades.

Conforme a documentação do scikit-learn, a regressão logística é particularmente útil para problemas de classificação binária, mas também suporta classificação multiclasse através das abordagens “one-vs-rest” (OvR) e “multinomial”.

Formulação Matemática

Para classificação binária, a probabilidade é modelada como:

\(P(y=1|X) = \frac{1}{1 + e^{-(w^T X + b)}}\)

Onde:

  • X é o vetor de features
  • w são os coeficientes do modelo
  • b é o termo de intercept (bias)
  • e é a base do logaritmo natural

A função de custo (log loss) é definida como:

\(J(w) = -\frac{1}{n}\sum_{i=1}^n [y_i\log(p_i) + (1-y_i)\log(1-p_i)]\)

Implementações no Scikit-learn

Atualmente, o scikit-learn oferece implementações versáteis da regressão logística:

  • LogisticRegression: Implementação principal com vários solvers
  • LogisticRegressionCV: Versão com validação cruzada embutida

Solvers Disponíveis

Diferentes algoritmos de otimização estão disponíveis:

  1. liblinear: Recomendado para datasets pequenos
  2. lbfgs: Bom para problemas com muitas features
  3. newton-cg: Usa método de Newton
  4. sag: Gradiente descendente estocástico médio
  5. saga: Extensão do SAG com suporte a L1

Exemplo Prático: Regressão Logística em Ação

Ademais, vejamos um exemplo completo demonstrando o uso da regressão logística:

Vantagens da Regressão Logística

Embora existam algoritmos mais complexos, a regressão logística mantém popularidade devido a:

Vantagens Principais

  • Interpretabilidade: Coeficientes fornecem insights sobre importância das features
  • Probabilidades calibradas: Saídas são probabilidades bem calibradas
  • Eficiência computacional: Treinamento rápido mesmo com muitas features
  • Regularização: Suporte nativo a L1 e L2 para evitar overfitting

Casos de Uso Recomendados

A regressão logística é particularmente eficaz em:

  1. Problemas de classificação binária: Como detecção de spam, diagnóstico médico
  2. Quando interpretabilidade é importante: Aplicações onde precisa explicar decisões
  3. Baseline para classificação: Ponto de partida para modelos mais complexos
  4. Dados tabulares: Com features numéricas e categóricas

Considerações Práticas

Algumas recomendações importantes para uso eficaz:

  • Normalize os dados para melhor performance e convergência
  • Use LogisticRegressionCV para seleção automática do parâmetro C
  • Escolha o solver apropriado baseado no tamanho do dataset e tipo de regularização
  • Para problemas desbalanceados, use class_weight=’balanced’

Enfim, a regressão logística representa uma ferramenta fundamental no arsenal de machine learning, combinando simplicidade, interpretabilidade e performance robusta para uma ampla gama de problemas de classificação.

Referência: https://scikit-learn.org/0.21/modules/linear_model.html#logistic-regression

Lasso LARS e a fusão entre Regularização L1 e Abordagem Geométric

Introdução ao Lasso LARS

O Lasso LARS constitui uma implementação eficiente que combina as vantagens da regressão Lasso com o algoritmo Least Angle Regression. Primordialmente, esta abordagem permite computar a solução completa do caminho Lasso de forma computacionalmente eficiente, sem a necessidade de otimização convexa iterativa.

Princípio de Funcionamento

O Lasso LARS opera através de um processo sequencial similar ao LARS tradicional, mas com uma modificação crucial: quando um coeficiente atinge zero, a feature correspondente é removida do conjunto ativo. Esta simples alteração garante que as soluções produzidas sejam idênticas às do Lasso convencional.

Diferenciação do LARS Clássico

Enquanto o LARS tradicional sempre mantém as features no modelo uma vez selecionadas, o Lasso LARS permite a remoção de features quando seus coeficientes se tornam zero. Isto produz modelos mais esparsos e alinhados com a filosofia de seleção de features do Lasso.

Vantagens Computacionais

  • Computação eficiente de todo o caminho de regularização
  • Menor custo computacional para problemas com muitas features
  • Estabilidade numérica superior em comparação com métodos baseados em descida de gradiente
  • Capacidade de lidar com situações onde número de features excede número de amostras

Formulação Matemática

O Lasso LARS resolve o mesmo problema de otimização do Lasso tradicional:

\(\min_{w} \frac{1}{2n_{\text{samples}}} ||X w – y||_2^2 + \alpha ||w||_1\)

Contudo, a estratégia de solução é fundamentalmente diferente. Ao invés de otimização convexa, utiliza-se uma abordagem geométrica baseada em direções equiangulares.

Algoritmo Lasso LARS

  1. Iniciar com coeficientes zero e resíduo igual ao target
  2. Encontrar a feature mais correlacionada com o resíduo
  3. Mover na direção desta feature até que outra feature tenha correlação igual
  4. Continuar na direção equiangular entre features ativas
  5. Se algum coeficiente atingir zero, remover a feature do conjunto ativo
  6. Repetir até inclusão de todas as features relevantes

Cenários de Aplicação Ideal

O Lasso LARS é particularmente adequado para:

  • Problemas com número de features maior que número de amostras (p > n)
  • Análise exploratória onde se deseja examinar todo o caminho de regularização
  • Situações que requerem seleção eficiente de features
  • Aplicações onde a estabilidade numérica é crítica

Implementação no scikit-learn

No scikit-learn, a classe LassoLars implementa esta técnica. Ademais, LassoLarsCV fornece seleção automática do parâmetro alpha através de validação cruzada.

Parâmetros Principais

  • alpha: Parâmetro de regularização (constante ou array)
  • fit_intercept: Cálculo do termo intercepto
  • verbose: Nível de detalhe durante execução
  • normalize: Normalização prévia dos dados
  • max_iter: Número máximo de iterações

Exemplo Prático: Comparação com Outras Abordagens

O exemplo a seguir demonstra o uso do Lasso LARS e sua comparação com implementações alternativas do Lasso:

Considerações sobre Estabilidade Numérica

O Lasso LARS demonstra particular robustez em situações numericamente desafiadoras. Por utilizar decomposições matriciais estáveis e evitar problemas de convergência associados a métodos iterativos, frequentemente produz resultados mais confiáveis em problemas mal condicionados.

Limitações e Considerações

Embora poderoso, o Lasso LARS apresenta algumas limitações:

  • Pode ser menos eficiente quando número de amostras é muito grande
  • Implementação atual não suporta sparse matrices de forma nativa
  • Menos flexível para personalização em comparação com abordagens baseadas em otimização

Considerações Finais

Inegavelmente, o Lasso LARS representa uma fusão elegante entre a intuitividade geométrica do LARS e o poder de seleção de features do Lasso. Sua capacidade de computar eficientemente todo o caminho de regularização o torna invaluable para análise exploratória e seleção de modelos.

Decerto, em cenários de alta dimensionalidade (p > n), o Lasso LARS frequentemente supera implementações tradicionais do Lasso tanto em termos de eficiência computacional quanto de estabilidade numérica. Ademais, fornece insights valiosos sobre a ordem de importância das features através do exame do caminho de regularização.

Analogamente a outras técnicas de regularização, a escolha do parâmetro alpha permanece crucial. Portanto, a combinação do Lasso LARS com métodos de validação cruzada ou critérios de informação constitui uma abordagem robusta para problemas práticos de machine learning.