Modelos Lineares Generalizados: Regressão logística

Anteriormente exploramos diversos algoritmos de regressão linear. Analogamente, a Regressão Logística é uma técnica fundamental para problemas de classificação, apesar do nome sugerir regressão. Decerto, ela modela a probabilidade de uma observação pertencer a uma determinada classe.

Conceito Fundamental da Regressão Logística

Primordialmente, a regressão logística utiliza uma função sigmoide para mapear saídas lineares em probabilidades entre 0 e 1. Similarmente aos modelos lineares, ela encontra uma combinação linear das features, mas aplica uma transformação não-linear para produzir probabilidades.

Conforme a documentação do scikit-learn, a regressão logística é particularmente útil para problemas de classificação binária, mas também suporta classificação multiclasse através das abordagens “one-vs-rest” (OvR) e “multinomial”.

Formulação Matemática

Para classificação binária, a probabilidade é modelada como:

\(P(y=1|X) = \frac{1}{1 + e^{-(w^T X + b)}}\)

Onde:

  • X é o vetor de features
  • w são os coeficientes do modelo
  • b é o termo de intercept (bias)
  • e é a base do logaritmo natural

A função de custo (log loss) é definida como:

\(J(w) = -\frac{1}{n}\sum_{i=1}^n [y_i\log(p_i) + (1-y_i)\log(1-p_i)]\)

Implementações no Scikit-learn

Atualmente, o scikit-learn oferece implementações versáteis da regressão logística:

  • LogisticRegression: Implementação principal com vários solvers
  • LogisticRegressionCV: Versão com validação cruzada embutida

Solvers Disponíveis

Diferentes algoritmos de otimização estão disponíveis:

  1. liblinear: Recomendado para datasets pequenos
  2. lbfgs: Bom para problemas com muitas features
  3. newton-cg: Usa método de Newton
  4. sag: Gradiente descendente estocástico médio
  5. saga: Extensão do SAG com suporte a L1

Exemplo Prático: Regressão Logística em Ação

Ademais, vejamos um exemplo completo demonstrando o uso da regressão logística:

Vantagens da Regressão Logística

Embora existam algoritmos mais complexos, a regressão logística mantém popularidade devido a:

Vantagens Principais

  • Interpretabilidade: Coeficientes fornecem insights sobre importância das features
  • Probabilidades calibradas: Saídas são probabilidades bem calibradas
  • Eficiência computacional: Treinamento rápido mesmo com muitas features
  • Regularização: Suporte nativo a L1 e L2 para evitar overfitting

Casos de Uso Recomendados

A regressão logística é particularmente eficaz em:

  1. Problemas de classificação binária: Como detecção de spam, diagnóstico médico
  2. Quando interpretabilidade é importante: Aplicações onde precisa explicar decisões
  3. Baseline para classificação: Ponto de partida para modelos mais complexos
  4. Dados tabulares: Com features numéricas e categóricas

Considerações Práticas

Algumas recomendações importantes para uso eficaz:

  • Normalize os dados para melhor performance e convergência
  • Use LogisticRegressionCV para seleção automática do parâmetro C
  • Escolha o solver apropriado baseado no tamanho do dataset e tipo de regularização
  • Para problemas desbalanceados, use class_weight=’balanced’

Enfim, a regressão logística representa uma ferramenta fundamental no arsenal de machine learning, combinando simplicidade, interpretabilidade e performance robusta para uma ampla gama de problemas de classificação.

Referência: https://scikit-learn.org/0.21/modules/linear_model.html#logistic-regression