1.2.3 – Regras de Associacao
1.2.3.1 – Apriori, FP-Growth, Eclat
descobrindo itens que andam juntos
Regras de associação identificam relações e padrões de co-ocorrência em grandes conjuntos de dados. Diferente de classificação, não há variável alvo, apenas buscas por associações interessantes. Primeiramente, o algoritmo analisa transações para encontrar itens que frequentemente aparecem juntos. Além disso, gera regras do tipo “se A então B” com métricas de confiança. Por exemplo, “quem compra pão também compra manteiga” em supermercados. É amplamente usado em análise de cestas de compras e recomendação. Essa técnica revela padrões que não são imediatamente óbvios.
métricas essenciais: suporte, confiança, lift
Suporte mede a frequência com que um conjunto de itens aparece nas transações. Primeiramente, suporte alto indica padrão frequente nos dados analisados. Além disso, confiança mede a probabilidade de B ocorrer dado A. Lift compara a confiança com a probabilidade esperada por acaso. Por exemplo, lift > 1 indica associação positiva relevante. Essas métricas filtram regras significativas entre milhões de possibilidades. São fundamentais para encontrar padrões verdadeiramente interessantes.
algoritmo apriori: mineração eficiente
Apriori é o algoritmo clássico para mineração de regras de associação em grandes bases. Primeiramente, ele usa o princípio de que subconjuntos de itens frequentes também são frequentes. Além disso, gera candidatos iterativamente, podando combinações pouco frequentes precocemente. Por exemplo, se {pão} é raro, {pão, manteiga} também será raro. Essa poda reduz drasticamente o espaço de busca. É eficiente para transações com muitos itens diferentes. Apriori é a base para sistemas de recomendação de supermercados.
aplicações além de cestas de compras
Regras de associação vão muito além da análise de mercado tradicional. Primeiramente, em saúde, identificam combinações de sintomas que indicam doenças. Além disso, em sistemas web, encontram páginas frequentemente acessadas juntas. Detecção de fraudes usa regras para identificar padrões suspeitos em transações. Por exemplo, “se saque noturno e valor alto então possível fraude”. Em bioinformática, descobrem genes que frequentemente aparecem juntos. Para iniciantes, regras de associação mostram como descobrir relacionamentos ocultos em dados. É uma ferramenta poderosa para explorar padrões não supervisionados.