Modelos Lineares Generalizados: Laço (Lasso)

Anteriormente discutimos a Regressão Linear tradicional e Ridge. Analogamente, o Lasso (Least Absolute Shrinkage and Selection Operator) é outra técnica de regularização que adiciona uma penalidade L1 à função objetivo, promovendo esparsidade nos coeficientes do modelo.

Conceito Fundamental do Lasso

Primordialmente, o Lasso realiza não apenas a regularização dos coeficientes, mas também seleção de features. Decerto, ao adicionar uma penalidade baseada no valor absoluto dos coeficientes, ele tende a zerar os coeficientes de features menos importantes.

Conforme a documentação do scikit-learn, o Lasso é particularmente útil quando acreditamos que apenas um subconjunto das features é realmente relevante para a previsão. Similarmente ao Ridge, ele ajuda a prevenir overfitting, mas com características distintas.

Formulação Matemática

O objetivo do Lasso é minimizar a seguinte função:

\(\min_{w} \frac{1}{2n}||Xw – y||_2^2 + \alpha||w||_1\)

Onde:

  • X é a matriz de features
  • y é o vetor target
  • w são os coeficientes do modelo
  • α é o parâmetro de regularização
  • ||w||₁ é a norma L1 dos coeficientes

Características Principais do Lasso

Inegavelmente, o Lasso possui propriedades únicas que o distinguem de outras técnicas de regularização:

  • Seleção de features: Zera coeficientes de features irrelevantes
  • Esparsidade: Produz modelos com poucas features não-zero
  • Interpretabilidade: Modelos mais simples e interpretáveis
  • Regularização L1: Penalidade baseada no valor absoluto

Comparação: Lasso vs Ridge

Embora ambos sejam técnicas de regularização, existem diferenças fundamentais:

  • Lasso (L1): Promove esparsidade, zera coeficientes
  • Ridge (L2): Reduz coeficientes, mas não zera
  • ElasticNet: Combina L1 e L2

Parâmetros do Lasso

Os principais parâmetros para ajuste no Lasso são:

  1. alpha: Parâmetro de regularização (α)
  2. max_iter: Número máximo de iterações
  3. tol: Tolerância para critério de parada
  4. selection: Estratégia de seleção de coeficientes

Exemplo Prático: Aplicação do Lasso

Ademais, vejamos um exemplo completo demonstrando o uso do Lasso:

Vantagens e Limitações do Lasso

Embora o Lasso seja poderoso, é importante compreender suas características:

Vantagens

  • Seleção automática de features
  • Modelos mais interpretáveis
  • Bom para high-dimensional data
  • Prevenção de overfitting

Limitações

  • Pode selecionar apenas uma feature de grupo correlacionado
  • Sensível à escala dos dados
  • Pode não performar bem quando todas features são relevantes
  • Requer ajuste cuidadoso do parâmetro alpha

Casos de Uso Recomendados

O Lasso é particularmente útil em:

  1. Problemas com muitas features e amostras limitadas
  2. Quando se deseja interpretabilidade do modelo
  3. Para seleção de features automática
  4. Em datasets onde muitas features são irrelevantes

Enfim, o Lasso representa uma ferramenta valiosa no arsenal de machine learning, combinando regularização com seleção de features de maneira eficiente e interpretável.

Referência: https://scikit-learn.org/0.21/modules/linear_model.html#lasso

Modelos Lineares Generalizados: Regressão do menor ângulo

Regressão do Menor Ângulo (LARS): Uma Abordagem Geométrica

Introdução ao Método LARS

A Regressão do Menor Ângulo, conhecida como Least Angle Regression (LARS), constitui um algoritmo elegante para regressão linear com seleção de features. Primordialmente, diferencia-se de métodos tradicionais por sua abordagem geométrica incremental, adicionando variáveis ao modelo de forma sequencial.

Princípio Fundamental

O LARS opera através de um processo iterativo onde, a cada passo, o algoritmo seleciona a feature que forma o menor ângulo com o resíduo atual. Surpreendentemente, esta abordagem permite calcular soluções para todos os valores de regularização de forma computacionalmente eficiente.

Intuição Geométrica

Imagine cada feature como um vetor no espaço multidimensional. O LARS inicia com predições nulas e, a cada iteração, move-se na direção que forma o menor ângulo com o vetor residual atual, até que outra feature se torne igualmente correlacionada.

Algoritmo LARS Passo a Passo

  • Inicializar todos os coeficientes como zero
  • Encontrar a feature mais correlacionada com o resíduo
  • Mover o coeficiente na direção desta feature até que outra feature tenha correlação igual
  • Continuar na direção equiangular entre as features ativas
  • Repetir até que todas as features relevantes sejam incluídas

Vantagens do Método LARS

  • Eficiência computacional para problemas de alta dimensionalidade
  • Cálculo de todo o caminho de regularização em uma única execução
  • Seleção natural de features de forma sequencial
  • Estabilidade numérica superior em comparação com métodos diretos

Relação com Lasso

Inegavelmente, uma das características mais notáveis do LARS é sua conexão profunda com a regressão Lasso. Com uma modificação simples, o algoritmo LARS pode computar exatamente a solução do Lasso para todos os valores do parâmetro de regularização.

Modificação LARS-Lasso

Quando uma feature ativa torna-se não-ativa (coeficiente atinge zero), o algoritmo LARS-Lasso remove esta feature do conjunto ativo antes de continuar. Esta simples modificação produz soluções idênticas ao Lasso tradicional.

Implementação no scikit-learn

No scikit-learn, a classe Lars implementa o algoritmo básico, enquanto LassoLars combina LARS com a penalidade Lasso. Ademais, LarsCV fornece seleção automática do parâmetro via validação cruzada.

Parâmetros Principais

  • n_nonzero_coefs: Número máximo de coeficientes não nulos
  • alpha: Parâmetro de regularização (para LassoLars)
  • fit_intercept: Se deve calcular o intercepto
  • normalize: Normalização dos dados de entrada

Exemplo Prático Comparativo

O exemplo a seguir demonstra o uso do LARS e sua comparação com outros métodos de regressão:

Aplicações Práticas do LARS

O método LARS é particularmente útil em cenários específicos:

  • Análise exploratória de dados com muitas features
  • Seleção de variáveis em problemas de alta dimensionalidade
  • Computação eficiente do caminho de regularização completo
  • Problemas onde a ordem de importância das features é relevante

Considerações sobre Performance

Embora o LARS seja computacionalmente eficiente para problemas com muitas features, pode tornar-se lento quando o número de amostras é muito grande. Nesses casos, métodos baseados em descida de gradiente podem ser mais apropriados.

Considerações Finais

Inegavelmente, a Regressão do Menor Ângulo representa uma contribuição significativa para o arsenal de métodos de regressão. Sua abordagem geométrica proporciona intuição valiosa sobre o processo de seleção de features.

Decerto, a conexão entre LARS e Lasso torna o método particularmente atraente para aplicações práticas. Ademais, a capacidade de computar todo o caminho de regularização em uma única execução oferece vantagens computacionais importantes.

Analogamente a outros métodos de regularização, a interpretação dos resultados requer atenção à ordem de entrada das features no modelo. Portanto, a análise do caminho LARS pode revelar insights valiosos sobre a estrutura subjacente dos dados.