Apriori, FP-Growth, Eclat

1.2 – Nao Supervisionado
1.2.3 – Regras de Associacao
1.2.3.1 – Apriori, FP-Growth, Eclat
LEGENDA
Principal
Ramo
Metodo
Problemas
Modelo
Arquitetura

O que são regras de associação

Regras de associação é uma técnica não supervisionada. Ela descobre relações entre itens em grandes transações. Por exemplo, clientes que compram pão também compram manteiga. Essa descoberta é feita sem rótulos prévios. Primeiramente, o algoritmo analisa frequências de itens. Em seguida, ele gera regras do tipo “se X então Y”. Essas regras são usadas em cestas de compras e recomendações. Diferentemente da classificação, aqui não há variável alvo. O objetivo é encontrar padrões ocultos nos dados. Três algoritmos principais são Apriori, FP-Growth e Eclat.

Cada algoritmo tem uma arquitetura distinta. Apriori é baseado em geração de candidatos passo a passo. Ele é simples, mas pode ser lento com muitos dados. FP-Growth usa uma estrutura de árvore compacta. Essa árvore evita a geração repetitiva de candidatos. Por conseguinte, FP-Growth é muito mais rápido. Eclat trabalha com uma representação vertical dos dados. Ele usa interseções de identificadores de transações. Sua eficiência é boa para conjuntos densos. Todos os três são amplamente utilizados na prática.

Arquitetura dos modelos

O Apriori opera em duas fases principais. Primeiro, ele encontra todos os conjuntos frequentes de itens. Começa com itens individuais e aumenta o tamanho gradualmente. A cada passo, candidatos são gerados a partir dos anteriores. Depois, conta-se o suporte de cada candidato no banco. Itens abaixo do suporte mínimo são descartados. Esse processo é repetido até não haver novos conjuntos. Finalmente, as regras são geradas a partir desses conjuntos. A poda (pruning) é feita pela propriedade anti-monotônica: \(sup(X) \ge sup(X \cup Y)\). Isso significa que subconjuntos são sempre mais frequentes. O FP-Growth constrói uma árvore de padrões frequentes. Cada nó representa um item e seu caminho. A árvore é compacta e armazena contagens de suporte. Depois, a mineração é feita recursivamente na árvore. O Eclat transforma dados em listas de IDs de transações. Cada item tem uma lista de onde ele aparece. A interseção dessas listas dá o suporte dos conjuntos. Essa abordagem é eficiente para bases com muitos itens.

Hiperparâmetros e fórmulas matemáticas

Os hiperparâmetros principais são suporte e confiança. O suporte mede a frequência de um conjunto de itens: \(sup(X) = \frac{\text{transações com X}}{N}\). Aqui, \(N\) é o número total de transações. A confiança mede a força de uma regra \(X \to Y\): \(conf(X \to Y) = \frac{sup(X \cup Y)}{sup(X)}\). Ela indica quantas vezes Y aparece junto com X. Outra métrica importante é o lift (elevação): \(lift(X \to Y) = \frac{sup(X \cup Y)}{sup(X) \cdot sup(Y)}\). Lift > 1 indica associação positiva relevante. Valores abaixo de 1 mostram correlação negativa. O terceiro hiperparâmetro é o comprimento mínimo da regra. Apriori também tem o parâmetro de tamanho máximo de itens. FP-Growth usa suporte mínimo como único parâmetro essencial. Eclat segue a mesma lógica do Apriori para suporte. A escolha do suporte mínimo é crítica e empírica. Suportes muito baixos geram muitas regras inúteis. Suportes altos podem perder padrões interessantes.

Enunciado do exemplo clássico (cesta de supermercado)

Você recebeu dados de transações de um supermercado. Cada transação contém itens comprados por um cliente. Seu objetivo é encontrar regras de associação fortes. Use o algoritmo Apriori para minerar os dados. Aplique suporte mínimo de 0.05 e confiança mínima de 0.5. Ordene as regras encontradas pelo lift (elevação). Exiba um gráfico de barras com as 10 melhores regras. Mostre também uma matriz de co-ocorrência de itens. O código abaixo resolve este enunciado completamente. Ele roda no Google Colab sem necessidade de ajustes. Boa prática! Regras de associação revelam padrões de consumo.

Esse código aplica Apriori a dados de supermercado. O suporte mínimo de 5% filtra itens pouco frequentes. A confiança mínima de 50% garante regras relevantes. O lift acima de 1 indica associação positiva verdadeira. A matriz de co-ocorrência mostra pares de itens frequentes. O gráfico de barras exibe as regras mais fortes. Pão e leite frequentemente aparecem juntos nas regras. Manteiga e café também mostram alta correlação. Para dados reais, aumente o número de transações. Regras de associação são essenciais em market basket analysis. Parabéns por descobrir padrões escondidos nas compras!

`

Deixe um comentário