Arquivo de biodiversidade - Área de Trampo

Imagine que você é um biólogo de campo encontrando uma nova espécie de planta. Você observa suas características: formato das folhas, tipo de flores, altura, padrão de crescimento. Baseando-se no que conhece de outras plantas, você classifica ela em uma família específica. Este processo de categorizar coisas baseando-se em características observáveis é exatamente o que a Classificação em machine learning faz computacionalmente. Ela nos ajuda a organizar e entender padrões complexos no mundo natural e além.

Como isso funciona na prática?

A classificação é um tipo de aprendizado supervisionado onde o algoritmo aprende a mapear características de entrada para categorias específicas. Primeiramente, você fornece exemplos rotulados – pense nisso como um herbário com plantas já identificadas. O algoritmo analisa esses exemplos e encontra padrões que distinguem uma categoria da outra. Posteriormente, quando uma nova amostra aparece, ele aplica esses padrões aprendidos para prever a qual categoria ela pertence. Diferentemente da regressão que prevê valores contínuos, a classificação lida com categorias discretas como “venenosa” vs “comestível” ou “mamífero” vs “réptil”.

Mãos na massa: classificando espécies de plantas

"""
Classificação de espécies vegetais usando Random Forest
Identifica espécies baseando-se em características morfológicas
"""

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import numpy as np

# Características das plantas: [altura_cm, largura_folha_cm, num_petalas, cor_flor_encoded]
caracteristicas_plantas = np.array([
    [30, 5, 5, 0],   # Margarida
    [150, 15, 0, 1], # Carvalho
    [25, 3, 6, 2],   # Rosa
    [200, 20, 0, 1], # Sequóia
    [40, 6, 4, 0],   # Girassol
    [80, 8, 0, 1],   # Bétula
    [35, 4, 5, 2],   # Tulipa
    [120, 12, 0, 1]  # Pinheiro
])

# Espécies correspondentes (0=herbácea, 1=arbórea, 2=ornamental)
especies = np.array([0, 1, 2, 1, 0, 1, 2, 1])

# Dividindo em dados de treino e teste
X_treino, X_teste, y_treino, y_teste = train_test_split(
    caracteristicas_plantas, especies, test_size=0.25, random_state=42
)

# Criando o classificador
classificador = RandomForestClassifier(n_estimators=100, random_state=42)
classificador.fit(X_treino, y_treino)  # Treinando com exemplos conhecidos

# Fazendo previsões
previsoes = classificador.predict(X_teste)
acuracia = accuracy_score(y_teste, previsoes)

print(f"Acurácia do modelo: {acuracia:.2f}")
print(f"Previsões para plantas teste: {previsoes}")

# Nova planta para classificar: 45cm, 7cm folhas, 5 pétalas, cor amarela
nova_planta = np.array([[45, 7, 5, 0]])
especie_prevista = classificador.predict(nova_planta)

print(f"\nNova planta classificada como: {especie_prevista[0]}")
# 0=herbácea, 1=arbórea, 2=ornamental

"""

Classificação de espécies vegetais usando Random Forest

Identifica espécies baseando-se em características morfológicas

"""

from sklearn.ensemble import RandomForestClassifier

from sklearn.model_selection import train_test_split

from sklearn.metrics import accuracy_score

import numpy as np

# Características das plantas: [altura_cm, largura_folha_cm, num_petalas, cor_flor_encoded]

caracteristicas_plantas = np.array([

[30, 5, 5, 0], # Margarida

[150, 15, 0, 1], # Carvalho

[25, 3, 6, 2], # Rosa

[200, 20, 0, 1], # Sequóia

[40, 6, 4, 0], # Girassol

[80, 8, 0, 1], # Bétula

[35, 4, 5, 2], # Tulipa

[120, 12, 0, 1] # Pinheiro

])

# Espécies correspondentes (0=herbácea, 1=arbórea, 2=ornamental)

especies = np.array([0, 1, 2, 1, 0, 1, 2, 1])

# Dividindo em dados de treino e teste

X_treino, X_teste, y_treino, y_teste = train_test_split(

caracteristicas_plantas, especies, test_size=0.25, random_state=42

)

# Criando o classificador

classificador = RandomForestClassifier(n_estimators=100, random_state=42)

classificador.fit(X_treino, y_treino) # Treinando com exemplos conhecidos

# Fazendo previsões

previsoes = classificador.predict(X_teste)

acuracia = accuracy_score(y_teste, previsoes)

print(f"Acurácia do modelo: {acuracia:.2f}")

print(f"Previsões para plantas teste: {previsoes}")

# Nova planta para classificar: 45cm, 7cm folhas, 5 pétalas, cor amarela

nova_planta = np.array([[45, 7, 5, 0]])

especie_prevista = classificador.predict(nova_planta)

print(f"\nNova planta classificada como: {especie_prevista[0]}")

# 0=herbácea, 1=arbórea, 2=ornamental

Os detalhes que fazem diferença

Escolher o algoritmo de classificação correto depende crucialmente da natureza dos seus dados e do problema. Random Forest funciona bem para a maioria dos casos, sendo robusto a outliers e lidando bem com relações não-lineares. Contudo, para dados linearmente separáveis, SVM pode ser mais eficiente. Analogamente importante é o balanceamento das classes; se você tem muitas mais exemplos de uma categoria que outras, o algoritmo pode ficar enviesado. A validação cruzada é essencial para garantir que seu modelo generalize bem para novos dados, não apenas memorizando os exemplos de treinamento.

Random Forest: Bom para dados complexos e relações não-lineares
SVM: Ideal para dados linearmente separáveis em alta dimensão
Regressão Logística: Excelente para problemas binários e probabilidades
KNN: Simples e intuitivo, bom para dados com estrutura local clara

Perguntas que os iniciantes fazem

Você deve estar se perguntando: “Qual a diferença entre classificação binária e multiclasse?” Excelente questão! A binária lida com apenas duas categorias (sim/não, positivo/negativo), enquanto a multiclasse lida com três ou mais categorias. Uma confusão comum é entre classificação e agrupamento (clustering) – a classificação usa rótulos conhecidos, o agrupamento encontra padrões sem rótulos prévios. Outra dúvida frequente: “Como saber se meu modelo está bom além da acurácia?” Use matriz de confusão, precisão, recall e F1-score para uma avaliação mais completa.

Para onde ir agora?

Experimente aplicar classificação em seus próprios dados biológicos ou de outros domínios. Comece com problemas binários simples antes de avançar para multiclasse. Explore diferentes algoritmos e compare seu desempenho usando validação cruzada. O momento “aha!” acontece quando você vê o modelo identificando padrões que você mesmo não havia percebido inicialmente.

Assuntos relacionados

Para aprofundar seu entendimento, estude estes conceitos fundamentais:

Teoria da probabilidade: distribuições, verossimilhança e teorema de Bayes
Estatística inferencial: testes de hipótese e intervalos de confiança
Álgebra linear: espaços vetoriais e transformações
Teoria da informação: entropia e ganho de informação
Otimização: gradiente descendente e métodos de maximização

Descobrindo padrões na natureza: como a classificação organiza o mundo biológico