1.2.1 – Clustering – Agrupamento
1.2.1.1 – K-Means, DBSCAN, Hierarchical Clustering, Gaussian Mixture Models
k-means: simplicidade e velocidade
K-means é o algoritmo de clustering mais popular pela simplicidade e eficiência computacional. Ele particiona os dados em k grupos, onde cada ponto pertence ao centróide mais próximo. Primeiramente, o usuário define o número k de clusters desejado. Além disso, o algoritmo itera entre atribuir pontos e recalcular centróides. Por exemplo, segmentar clientes em k=3 perfis de compra distintos. É ideal para dados com formas esféricas e clusters bem separados. Escolher o k adequado é o principal desafio prático.
dbscan: clusters por densidade
DBSCAN (Density-Based Spatial Clustering) identifica clusters baseados em densidade de pontos no espaço. Diferente de K-means, não exige definir o número de clusters antecipadamente. Primeiramente, ele agrupa pontos próximos que formam regiões densas. Além disso, pontos em áreas esparsas são classificados como ruído. Por exemplo, identificar aglomerados em mapas com formas irregulares. Captura clusters de qualquer formato, não apenas esféricos. É robusto a outliers e não assume distribuições específicas.
clustering hierárquico: árvore de agrupamentos
Clustering hierárquico constrói uma estrutura em árvore que revela relacionamentos em múltiplas escalas. Primeiramente, cada ponto começa como seu próprio cluster individual. Além disso, os clusters mais similares vão se fundindo progressivamente. O dendrograma visualiza todo o histórico de fusões entre grupos. Por exemplo, classificar espécies por características genéticas em biologia. Não requer definir número de clusters previamente. Permite explorar diferentes níveis de granularidade na análise.
gaussian mixture models (gmm)
Gaussian Mixture Models (GMM) representam clusters como distribuições probabilísticas gaussianas. Diferente de K-means, permite que clusters tenham formas elípticas e diferentes tamanhos. Primeiramente, assume que os dados vêm de uma mistura de distribuições normais. Além disso, usa algoritmo EM (Expectation-Maximization) para estimar os parâmetros. Por exemplo, segmentar mercado onde grupos têm variações diferentes. Atribui probabilidades de pertencimento em vez de associações rígidas. É mais flexível que K-means para dados com estruturas complexas.
como escolher o algoritmo adequado
A escolha do algoritmo de clustering depende das características dos dados e do problema. Primeiramente, K-means é ideal para dados esféricos e quando k é conhecido. Além disso, DBSCAN é melhor para dados com ruído e formas arbitrárias. Clustering hierárquico é preferido quando relações hierárquicas são importantes. GMM se destaca quando clusters têm diferentes formas e tamanhos. Por exemplo, dados genéticos podem se beneficiar de GMM ou hierárquico. Experimentar múltiplos algoritmos e validar com métricas internas é recomendado. Para iniciantes, cada algoritmo oferece uma perspectiva única sobre agrupamento de dados.