Classificação Binária

pet
1 – Aprendizado de Maquina
1.1.2 – Classificacao
1.1.2.1 – Binaria
LEGENDA
Principal
Ramo
Metodo
Problemas
Modelo
Arquitetura
 

Duas opções, uma decisão

Classificação binária é a forma mais simples de classificação, com apenas duas categorias possíveis. O modelo decide entre duas classes mutuamente exclusivas como “sim” ou “não”. Por exemplo, determinar se um e-mail é spam ou não spam. Primeiramente, essa simplicidade torna a classificação binária ideal para iniciantes. Além disso, muitos problemas complexos podem ser decompostos em múltiplos problemas binários. A saída geralmente representa a probabilidade de pertencer à classe positiva. É o ponto de partida fundamental para entender classificação supervisionada.

Limiar de decisão e probabilidades

A maioria dos classificadores binários produz uma probabilidade entre 0 e 1 como saída. Primeiramente, o limiar padrão é 0,5: acima disso classe positiva, abaixo classe negativa. Além disso, podemos ajustar esse limiar para diferentes necessidades operacionais. Por exemplo, em diagnósticos médicos, preferimos um limiar mais baixo para não perder casos. Limiares mais altos produzem menos falsos positivos, mas podem perder casos verdadeiros. A curva ROC mostra o desempenho do modelo em todos os limiares possíveis. A escolha do limiar reflete o equilíbrio entre diferentes tipos de erro.

Métricas essenciais para problemas binários

Avaliar classificadores binários exige métricas que capturam os diferentes tipos de erro possíveis. A matriz de confusão organiza resultados em quatro categorias: VP, VN, FP, FN. Primeiramente, verdadeiros positivos (VP) são acertos na classe positiva. Verdadeiros negativos (VN) são acertos na classe negativa. Além disso, falsos positivos (FP) são erros do tipo alarme falso. Falsos negativos (FN) são erros onde o modelo perdeu casos positivos. Precisão e recall derivam dessas quantidades para avaliação detalhada. F1-score combina precisão e recall em uma única métrica balanceada.

Desbalanceamento de classes

Problemas binários frequentemente sofrem com desbalanceamento entre as duas classes. Por exemplo, fraudes representam menos de 1% das transações bancárias. Primeiramente, um modelo que sempre prevê “não fraude” tem acurácia de 99%. Além disso, métricas como acurácia se tornam enganosas em dados desbalanceados. Técnicas como sobreamostragem (oversampling) criam cópias da classe minoritária. Subamostragem (undersampling) reduz exemplos da classe majoritária para equilíbrio. Algoritmos sensíveis a custo atribuem pesos diferentes para cada classe. O desbalanceamento exige cuidado especial na avaliação e treinamento do modelo.

Aplicações práticas da classificação binária

Classificação binária está presente em sistemas críticos que exigem decisões rápidas. Primeiramente, detecção de fraudes analisa transações bancárias em tempo real. Além disso, diagnóstico médico classifica exames como normais ou alterados. Sistemas de segurança usam classificação binária para reconhecimento facial autorizado. Filtros de conteúdo identificam comentários ofensivos ou apropriados para publicação. Na indústria, sistemas inspecionam produtos como “defeituoso” ou “sem defeitos”. Para iniciantes, classificação binária oferece aplicações práticas imediatas e compreensíveis. É a base sobre a qual muitos sistemas inteligentes realizam decisões críticas.

Descrição do Problema

Este é um problema clássico de Aprendizado de Máquina Supervisionado onde o objetivo é classificar tumores de mama como Malignos (cancerígenos) ou Benignos (não cancerígenos) com base em características extraídas de imagens de exames.
🎯 Objetivo: Construir um modelo preditivo que possa auxiliar médicos no diagnóstico precoce de câncer de mama, identificando automaticamente se um tumor é maligno ou benigno com alta precisão.
 
Dataset – Breast Cancer Wisconsin
O dataset contém 569 amostras de tumores de mama, cada uma descrita por 30 características numéricas calculadas a partir de imagens digitalizadas.

Distribuição das Classes

🔴 Maligno (0): 212 amostras (37.3%) 🟢 Benigno (1): 357 amostras (62.7%)

Tipos de Features

• Raio (radius) • Textura (texture) • Perímetro (perimeter) • Área (area) • Suavidade (smoothness) • Compacidade (compactness) • Concavidade (concavity) • Simetria (symmetry)

Arquitetura do Modelo

Utilizamos o algoritmo Random Forest Classifier, um método ensemble que combina múltiplas árvores de decisão para obter predições mais robustas e precisas.
RandomForestClassifier( n_estimators=100, # Número de árvores na floresta max_depth=10, # Profundidade máxima das árvores random_state=42, # Seed para reprodutibilidade n_jobs=-1 # Usa todos os processadores )

Pipeline de Processamento

1️⃣ Pré-processamento

• Padronização dos dados (StandardScaler) • Média = 0, Desvio Padrão = 1 • Divisão treino/teste (80/20)

2️⃣ Treinamento

• Random Forest com 100 árvores • Validação cruzada (5-fold) • GridSearch para otimização

3️⃣ Avaliação

• Acurácia • ROC-AUC • Matriz de Confusão • Relatório de Classificação

⚙️ Hiperparâmetros do Modelo

Hiperparâmetros Principais:

Hiperparâmetro Valor Padrão Valor Otimizado Descrição
n_estimators 100 200 Número de árvores de decisão na floresta
max_depth 10 15 Profundidade máxima de cada árvore
min_samples_split 2 5 Número mínimo de amostras para dividir um nó
min_samples_leaf 1 2 Número mínimo de amostras em um nó folha
max_features ‘sqrt’ ‘sqrt’ Número de features para melhor divisão

GridSearch – Espaço de Busca:

param_grid = { ‘n_estimators’: [50, 100, 200], # Número de árvores ‘max_depth’: [5, 10, 15, None], # Profundidade das árvores ‘min_samples_split’: [2, 5, 10] # Amostras para divisão }

📈 Métricas de Avaliação

✅ Acurácia

Proporção de predições corretas: (VP + VN) / (VP + VN + FP + FN) Resultado esperado: ~96-98%

📊 ROC-AUC

Capacidade de distinguir entre classes: Área sob a curva ROC Resultado esperado: ~0.99

🎯 Precisão (Precision)

Taxa de verdadeiros positivos entre os preditos positivos: VP / (VP + FP)

📐 Recall (Sensibilidade)

Capacidade de encontrar todos os positivos: VP / (VP + FN)
 

Resultados Esperados

🏆 Performance do Modelo

• Acurácia: 96-98% • ROC-AUC: >0.99 • Precisão: ~97% • Recall: ~96% • F1-Score: ~96%

⏱️ Tempo de Processamento

• Treinamento: ~2-5 segundos • Predição: <0.1 segundo • GridSearch: ~30-60 segundos
 

Classificação

dois grupos de jogadores
1.1 – Supervisionado
1.1.2 – Classificacao
1.1.2.1 – Binaria
1.1.2.2 – Multiclasse
1.1.2.3 – Multirrotulo
1.1.2.4 – Redes Neurais – Visão Computacional
1.1.2.5 – Redes Neurais – Texto Sequencias
1.1.2.6 – Redes Neurais – Hibridas/Especificas
LEGENDA
Principal
Ramo
Metodo
Problemas
Modelo
Arquitetura

atribuindo categorias aos dados

Classificação é uma tarefa de aprendizado supervisionado onde a saída é uma categoria discreta. O modelo aprende a atribuir cada exemplo a uma classe específica entre opções limitadas. Por exemplo, um sistema classifica e-mails como “spam” ou “não spam”. Primeiramente, o algoritmo analisa exemplos rotulados para identificar padrões discriminantes. Depois, ele generaliza esse conhecimento para classificar novos dados não vistos. Diferente da regressão, que prevê números, a classificação prevê rótulos. É uma das tarefas mais comuns e fundamentais do aprendizado de máquina.

classificação binária versus multiclasse

Classificação binária envolve apenas duas categorias mutuamente exclusivas para os dados. Por exemplo, “positivo” ou “negativo” para diagnóstico de doenças. Além disso, classificação multiclasse lida com três ou mais categorias distintas. Por exemplo, reconhecimento de dígitos de 0 a 9 (dez classes). Primeiramente, problemas binários são mais simples e servem como introdução ao tema. Além disso, problemas multiclasse podem ser reduzidos a múltiplos problemas binários. A escolha da abordagem depende da natureza específica do problema.

modelos populares para classificação

Diversos algoritmos de classificação estão disponíveis para diferentes tipos de problemas. Regressão logística é simples e interpretável para problemas binários básicos. Árvores de decisão oferecem transparência e facilidade de explicação das decisões. Support Vector Machines (SVM) criam fronteiras robustas para dados complexos. Além disso, redes neurais capturam padrões não lineares em dados de alta dimensionalidade. Primeiramente, a escolha do modelo depende do tamanho dos dados e complexidade. Métodos ensemble como Random Forest combinam múltiplos modelos para melhor desempenho.

avaliando classificadores

Avaliar modelos de classificação exige métricas específicas para diferentes aspectos do desempenho. Primeiramente, acurácia mede a proporção total de acertos do classificador. Além disso, precisão indica quantos positivos previstos estavam realmente corretos. Recall mostra quantos positivos reais o modelo conseguiu capturar adequadamente. A matriz de confusão organiza acertos e erros em quatro categorias claras. Curva ROC e AUC avaliam o desempenho em diferentes limiares de decisão. Para classes desbalanceadas, métricas como F1-score são mais apropriadas. Essas métricas fornecem visão completa do comportamento do classificador.

aplicações no cotidiano

Classificação está presente em inúmeras aplicações que impactam nosso dia a dia. Primeiramente, filtros de spam protegem caixas de entrada de e-mails indesejados diariamente. Além disso, sistemas de detecção de fraudes analisam transações em tempo real. Reconhecimento facial em smartphones classifica se o rosto é autorizado. Na medicina, algoritmos auxiliam no diagnóstico a partir de exames médicos. Sistemas de recomendação classificam itens que podem interessar cada usuário. Para iniciantes, classificação é a porta de entrada para aplicações práticas de IA. É o que permite que máquinas organizem, filtrem e interpretem o mundo.