1. Tipos de Dados Básicos
2. Variáveis e Atribuições
- Tipo de atribuições em variáveis
- Variável Local e Global, comentários e documentação em Python
- Conversões de tipos
Bem-vindo à categoria Python. Aqui, abordaremos tópicos do básico ao avançado e exploraremos sua vasta biblioteca.
Nesse cenário, o algoritmo nunca viu “anomalias” antes durante o treinamento. Ele apenas recebe um grande volume de dados normais. O objetivo é encontrar pontos que fogem da maioria. Frequentemente, essas observações são chamadas de outliers. Muitas aplicações usam essa técnica: segurança cibernética, detecção de fraudes e manutenção preditiva. Porém, o desafio é definir o que é realmente anormal. Os dados normais podem conter ruídos acidentais. Ainda assim, modelos robustos conseguem separar o joio do trigo. Isso é feito sem nenhum rótulo de “normal” ou “anomalia”. É uma forma poderosa de descobrir problemas escondidos.
Os dados rotulados são extremamente raros em problemas reais. Coletar exemplos de fraudes é caro e demorado. Por isso, métodos não supervisionados são tão valiosos. Eles conseguem operar apenas com dados normais. Além disso, novas anomalias imprevistas também são descobertas. A voz passiva é frequentemente usada nesse contexto: “os dados são analisados sem intervenção humana”. Os modelos aprendem a densidade ou o comportamento esperado. Pontos que violam essa expectativa são sinalizados. Consequentemente, as empresas reduzem perdas financeiras. Esse tipo de detecção salva vidas em diagnósticos médicos. Portanto, dominar esses algoritmos é um grande diferencial.
Características: Esse modelo isola anomalias em vez de descrever dados normais. Ele constrói árvores de decisão aleatórias. As anomalias são isoladas mais rapidamente (caminhos mais curtos). É rápido e escala bem para grandes volumes. Muito eficaz em dados tabulares.
n_estimators (número de árvores, padrão 100), max_samples (amostras por árvore) e contamination (proporção esperada de anomalias).
Matemática (Isolation Forest):
O score \( s \) próximo de 1 indica anomalia. \( E(h(x)) \) é o comprimento médio do caminho. Quanto menor o caminho, mais anômalo é o ponto. Essa abordagem é extremamente intuitiva e poderosa.
Características: O One‑Class SVM aprende uma fronteira que envolve os dados normais. Ele encontra a região onde a maioria dos pontos reside. Pontos fora dessa região são anomalias. Funciona bem para dados de média dimensionalidade. É inspirado no conceito de separação máxima.
nu (limite superior de anomalias, entre 0 e 1) e kernel (rbf, linear, poly). O parâmetro gamma controla a influência de cada ponto.
Matemática (One‑Class SVM):
O algoritmo maximiza a distância da origem até a fronteira. Os vetores de suporte definem o limite da região normal. A margem é ajustada pelo hiperparâmetro nu. Essa formulação foi projetada especificamente para detecção de novidades.
Características: DBSCAN agrupa pontos densos e rotula pontos isolados como ruído. Ele não exige o número de clusters. Consegue encontrar formas arbitrárias. Ótimo para dados com regiões de densidade variável. As anomalias são os pontos que não pertencem a nenhum grupo.
eps (raio da vizinhança) e min_samples (número mínimo de pontos para formar um cluster). Valores típicos: eps entre 0.1 e 1.0, min_samples entre 5 e 20.
Matemática (DBSCAN):
Pontos que não são núcleo nem alcançáveis por densidade são anomalias. Esses pontos são classificados como ruído. A vantagem é não assumir nenhuma distribuição estatística. É um método totalmente baseado na densidade local.
Características: Um autoencoder aprende a reconstruir dados normais. Anomalias geram alto erro de reconstrução. A arquitetura possui um gargalo (bottleneck) que força a compressão. É não linear e muito flexível. Excelente para imagens, séries temporais e dados complexos.
encoding_dim (tamanho da camada comprimida), número de camadas, funções de ativação (ReLU, tanh), learning_rate, epochs e batch_size.
Matemática (Autoencoder para anomalias):
Se o erro de reconstrução for maior que um limiar, o ponto é marcado como anomalia. O modelo só é treinado com dados normais. Consequentemente, ele não consegue reconstruir comportamentos anômalos. Esse princípio é amplamente usado em detecção de fraudes com imagens.
Características: LSTM é uma rede recorrente especializada em sequências. Ela memoriza padrões de longo prazo. Ideal para detecção de anomalias em séries temporais (sensores, logs, finanças). A arquitetura contém células de memória com portas (input, forget, output). Esse modelo prevê o próximo passo e compara com o real.
window_size (tamanho da sequência de entrada), dropout (regularização), optimizer (Adam), learning_rate e epochs.
Matemática (LSTM para anomalias):
O LSTM aprende a prever o próximo valor de uma série. Quando o erro de predição ultrapassa um limiar, uma anomalia é detectada. Essas portas controlam o fluxo de informação. Esse método é padrão em manutenção preditiva de máquinas.
Resumo prático: Para dados tabulares, comece com Isolation Forest. Para séries temporais, use LSTM ou Autoencoders. DBSCAN é ótimo quando você não sabe quantos grupos existem. O One‑Class SVM funciona bem em médias dimensões. Lembre-se: sempre normalize os dados antes! Teste diferentes limiares de detecção. Com esses cinco modelos, você já pode criar sistemas antifraude, detectar falhas em equipamentos e encontrar comportamentos suspeitos. A prática leva à perfeição. Explore e descubra anomalias escondidas!