Detecção de Anomalias

cãozinho
1.2 – Nao Supervisionado
1.2.4 – Deteccao de Anomalias
1.2.4.1 – Isolation Forest, One-Class SVM, DBSCAN, Autoencoders, LSTM
LEGENDA
Principal
Ramo
Metodo
Problemas
Modelo
Arquitetura

encontrando o que é raro e suspeito

Detecção de anomalias identifica padrões que não se comportam como a maioria dos dados analisados. Diferente da classificação, não há exemplos de anomalias para treinar o modelo. Primeiramente, o algoritmo aprende o comportamento normal a partir de dados históricos. Além disso, identifica pontos que se desviam significativamente desse padrão estabelecido. Por exemplo, transações bancárias suspeitas em meio a milhares de operações normais. É essencial para segurança, monitoramento e controle de qualidade.

técnicas estatísticas e baseadas em distância

Métodos estatísticos assumem que dados normais seguem uma distribuição conhecida. Primeiramente, pontos com baixa probabilidade são considerados anomalias potenciais. Além disso, métodos baseados em distância medem isolamento em relação aos vizinhos. Por exemplo, KNN detecta pontos muito distantes de seus vizinhos mais próximos. Z-score identifica valores que se afastam mais de três desvios padrão da média. Técnicas de clusterização marcam pontos que não pertencem a nenhum cluster. São abordagens simples e interpretáveis para detecção.

isolamento e aprendizado de representações

Isolation Forest é um método eficiente que isola anomalias em vez de perfilar o normal. Primeiramente, ele constrói árvores de decisão aleatórias particionando os dados. Além disso, anomalias requerem menos divisões para serem isoladas na estrutura. Autoencoders aprendem a reconstruir dados normais e detectam anomalias por erro elevado. Por exemplo, transações fraudulentas geram maior erro de reconstrução. Métodos baseados em redes neurais capturam padrões complexos. São adequados para dados de alta dimensionalidade como imagens e séries temporais.

aplicações críticas no mundo real

Detecção de anomalias protege sistemas críticos em diversas indústrias diariamente. Primeiramente, instituições financeiras identificam transações fraudulentas em tempo real. Além disso, manufatura detecta produtos defeituosos em linhas de produção automáticas. Segurança cibernética identifica invasões e comportamentos anormais em redes. Por exemplo, detectar falhas em equipamentos industriais antes que quebrem. Na saúde, monitora sinais vitais de pacientes buscando padrões perigosos. Para iniciantes, detecção de anomalias mostra como encontrar o inesperado em dados. É a ferramenta para descobrir o raro, o suspeito e o que merece atenção.

Apriori, FP-Growth, Eclat

Dona de casa selecionando uma amostra da sopa que ela preparou
1.2 – Nao Supervisionado
1.2.3 – Regras de Associacao
1.2.3.1 – Apriori, FP-Growth, Eclat
LEGENDA
Principal
Ramo
Metodo
Problemas
Modelo
Arquitetura

O que são regras de associação

Regras de associação é uma técnica não supervisionada. Ela descobre relações entre itens em grandes transações. Por exemplo, clientes que compram pão também compram manteiga. Essa descoberta é feita sem rótulos prévios. Primeiramente, o algoritmo analisa frequências de itens. Em seguida, ele gera regras do tipo “se X então Y”. Essas regras são usadas em cestas de compras e recomendações. Diferentemente da classificação, aqui não há variável alvo. O objetivo é encontrar padrões ocultos nos dados. Três algoritmos principais são Apriori, FP-Growth e Eclat.

Cada algoritmo tem uma arquitetura distinta. Apriori é baseado em geração de candidatos passo a passo. Ele é simples, mas pode ser lento com muitos dados. FP-Growth usa uma estrutura de árvore compacta. Essa árvore evita a geração repetitiva de candidatos. Por conseguinte, FP-Growth é muito mais rápido. Eclat trabalha com uma representação vertical dos dados. Ele usa interseções de identificadores de transações. Sua eficiência é boa para conjuntos densos. Todos os três são amplamente utilizados na prática.

Arquitetura dos modelos

O Apriori opera em duas fases principais. Primeiro, ele encontra todos os conjuntos frequentes de itens. Começa com itens individuais e aumenta o tamanho gradualmente. A cada passo, candidatos são gerados a partir dos anteriores. Depois, conta-se o suporte de cada candidato no banco. Itens abaixo do suporte mínimo são descartados. Esse processo é repetido até não haver novos conjuntos. Finalmente, as regras são geradas a partir desses conjuntos. A poda (pruning) é feita pela propriedade anti-monotônica: \(sup(X) \ge sup(X \cup Y)\). Isso significa que subconjuntos são sempre mais frequentes. O FP-Growth constrói uma árvore de padrões frequentes. Cada nó representa um item e seu caminho. A árvore é compacta e armazena contagens de suporte. Depois, a mineração é feita recursivamente na árvore. O Eclat transforma dados em listas de IDs de transações. Cada item tem uma lista de onde ele aparece. A interseção dessas listas dá o suporte dos conjuntos. Essa abordagem é eficiente para bases com muitos itens.

Hiperparâmetros e fórmulas matemáticas

Os hiperparâmetros principais são suporte e confiança. O suporte mede a frequência de um conjunto de itens: \(sup(X) = \frac{\text{transações com X}}{N}\). Aqui, \(N\) é o número total de transações. A confiança mede a força de uma regra \(X \to Y\): \(conf(X \to Y) = \frac{sup(X \cup Y)}{sup(X)}\). Ela indica quantas vezes Y aparece junto com X. Outra métrica importante é o lift (elevação): \(lift(X \to Y) = \frac{sup(X \cup Y)}{sup(X) \cdot sup(Y)}\). Lift > 1 indica associação positiva relevante. Valores abaixo de 1 mostram correlação negativa. O terceiro hiperparâmetro é o comprimento mínimo da regra. Apriori também tem o parâmetro de tamanho máximo de itens. FP-Growth usa suporte mínimo como único parâmetro essencial. Eclat segue a mesma lógica do Apriori para suporte. A escolha do suporte mínimo é crítica e empírica. Suportes muito baixos geram muitas regras inúteis. Suportes altos podem perder padrões interessantes.

Enunciado do exemplo clássico (cesta de supermercado)

Você recebeu dados de transações de um supermercado. Cada transação contém itens comprados por um cliente. Seu objetivo é encontrar regras de associação fortes. Use o algoritmo Apriori para minerar os dados. Aplique suporte mínimo de 0.05 e confiança mínima de 0.5. Ordene as regras encontradas pelo lift (elevação). Exiba um gráfico de barras com as 10 melhores regras. Mostre também uma matriz de co-ocorrência de itens. O código abaixo resolve este enunciado completamente. Ele roda no Google Colab sem necessidade de ajustes. Boa prática! Regras de associação revelam padrões de consumo.

Esse código aplica Apriori a dados de supermercado. O suporte mínimo de 5% filtra itens pouco frequentes. A confiança mínima de 50% garante regras relevantes. O lift acima de 1 indica associação positiva verdadeira. A matriz de co-ocorrência mostra pares de itens frequentes. O gráfico de barras exibe as regras mais fortes. Pão e leite frequentemente aparecem juntos nas regras. Manteiga e café também mostram alta correlação. Para dados reais, aumente o número de transações. Regras de associação são essenciais em market basket analysis. Parabéns por descobrir padrões escondidos nas compras!

`