Arquivo de Python - Página 27 de 93

Descobrindo os padrões ocultos: como a análise de componentes da vizinhança revela estruturas nos dados

19/12/202531/10/2025 Por antonino

Imagine que você é um técnico de futebol analisando o desempenho do seu time. Em vez de olhar para jogadores individualmente, você observa como eles se conectam em campo – quem passa para quem, quem se movimenta em conjunto, quem forma triângulos ofensivos. Esta análise das relações e padrões de conectividade entre os elementos é exatamente o que a Análise dos Componentes da Vizinhança faz com dados. Ela revela a estrutura subjacente de como os pontos se relacionam entre si em espaços multidimensionais.

Como isso funciona na prática?

A análise dos componentes da vizinhança examina as conexões entre pontos de dados para identificar padrões estruturais. Ela constrói um grafo onde cada ponto é conectado aos seus vizinhos mais próximos, criando uma rede de relacionamentos. Posteriormente, analisa este grafo para encontrar componentes conectados, detectar outliers e entender a densidade local dos dados. Diferentemente de métodos que olham apenas para distâncias absolutas, esta abordagem considera a topologia relacional dos dados, revelando como informações fluem através da vizinhança e identificando estruturas hierárquicas naturais.

Mãos na massa: analisando a estrutura de passes no futebol

"""
Análise dos Componentes da Vizinhança para padrões de passes no futebol
Identifica estruturas de conectividade entre jogadores baseado em estatísticas
"""

from sklearn.neighbors import kneighbors_graph
from scipy.sparse.csgraph import connected_components
import numpy as np
import matplotlib.pyplot as plt

# Estatísticas de jogadores: [passes_certos_%, passes_longos_%, assistências, recuperações]
estatisticas_jogadores = np.array([
    [85, 15, 2, 8],   # Volante
    [92, 8, 5, 3],    # Meia-ofensivo
    [78, 25, 1, 12],  # Zagueiro
    [88, 12, 3, 6],   # Meia-central
    [82, 20, 0, 10],  # Lateral
    [90, 10, 4, 4],   # Meia
    [95, 5, 6, 2],    # Camisa 10
    [80, 22, 1, 9]    # Zagueiro
])

# Criando grafo de vizinhança com 3 vizinhos mais próximos
grafo_vizinhanca = kneighbors_graph(estatisticas_jogadores, n_neighbors=3, mode='connectivity')

print("Matriz de conectividade (quem está conectado com quem):")
print(grafo_vizinhanca.toarray())

# Encontrando componentes conectados
n_componentes, rotulos = connected_components(grafo_vizinhanca)

print(f"\nNúmero de componentes conectados: {n_componentes}")
print(f"Rótulos dos componentes: {rotulos}")

# Analisando a densidade de conexões por jogador
grafo_distancias = kneighbors_graph(estatisticas_jogadores, n_neighbors=3, mode='distance')
distancias_medias = grafo_distancias.mean(axis=1)

print("\nDensidade de conexões por jogador:")
for i, densidade in enumerate(distancias_medias):
    print(f"Jogador {i+1}: {densidade[0]:.2f}")

"""

Análise dos Componentes da Vizinhança para padrões de passes no futebol

Identifica estruturas de conectividade entre jogadores baseado em estatísticas

"""

from sklearn.neighbors import kneighbors_graph

from scipy.sparse.csgraph import connected_components

import numpy as np

import matplotlib.pyplot as plt

# Estatísticas de jogadores: [passes_certos_%, passes_longos_%, assistências, recuperações]

estatisticas_jogadores = np.array([

[85, 15, 2, 8], # Volante

[92, 8, 5, 3], # Meia-ofensivo

[78, 25, 1, 12], # Zagueiro

[88, 12, 3, 6], # Meia-central

[82, 20, 0, 10], # Lateral

[90, 10, 4, 4], # Meia

[95, 5, 6, 2], # Camisa 10

[80, 22, 1, 9] # Zagueiro

])

# Criando grafo de vizinhança com 3 vizinhos mais próximos

grafo_vizinhanca = kneighbors_graph(estatisticas_jogadores, n_neighbors=3, mode='connectivity')

print("Matriz de conectividade (quem está conectado com quem):")

print(grafo_vizinhanca.toarray())

# Encontrando componentes conectados

n_componentes, rotulos = connected_components(grafo_vizinhanca)

print(f"\nNúmero de componentes conectados: {n_componentes}")

print(f"Rótulos dos componentes: {rotulos}")

# Analisando a densidade de conexões por jogador

grafo_distancias = kneighbors_graph(estatisticas_jogadores, n_neighbors=3, mode='distance')

distancias_medias = grafo_distancias.mean(axis=1)

print("\nDensidade de conexões por jogador:")

for i, densidade in enumerate(distancias_medias):

print(f"Jogador {i+1}: {densidade[0]:.2f}")

Os detalhes que fazem diferença

O parâmetro de número de vizinhos (n_neighbors) é crucial para a análise correta da estrutura dos dados. Um valor muito baixo pode fragmentar demais o grafo, criando muitos componentes desconectados artificialmente. Contudo, um valor muito alto pode conectar pontos que não deveriam estar relacionados, mascarando a verdadeira estrutura subjacente. Analogamente importante é a escolha entre modos ‘connectivity’ e ‘distance’; o primeiro apenas indica se há conexão, enquanto o segundo pondera pela distância real. A análise de componentes é particularmente útil para detectar outliers – pontos que não se conectam bem com nenhum componente principal.

Seleção de vizinhos: Comece com n_neighbors=5 e ajuste conforme a densidade
Modo connectivity: Ideal para análise de estrutura e componentes
Modo distance: Melhor para análise de densidade e outliers
Visualização: Use grafos para entender visualmente as conexões

Perguntas que os iniciantes fazem

Você deve estar se perguntando: “Qual a diferença entre esta análise e simplesmente calcular distâncias?” Excelente questão! Enquanto distâncias mostram proximidade absoluta, a análise de componentes revela a estrutura relacional – como os pontos se agrupam e se conectam. Uma confusão comum é pensar que pontos próximos sempre pertencem ao mesmo componente; na verdade, a estrutura de vizinhança pode revelar barreiras naturais mesmo entre pontos geometricamente próximos. Outra dúvida frequente: “Quando devo usar esta análise?” Use-a sempre que quiser entender a topologia dos seus dados, detectar clusters naturais ou identificar pontos isolados.

Para onde ir agora?

Experimente aplicar a análise de componentes da vizinhança em seus próprios dados esportivos. Comece visualizando o grafo de conectividade para entender as relações. Teste diferentes valores de n_neighbors e observe como a estrutura se transforma. Use a detecção de componentes para identificar grupos naturais de jogadores ou padrões de jogo. O momento “aha!” acontece quando você descobre estruturas que não eram evidentes olhando apenas para as distâncias individuais.

Assuntos relacionados

Para aprofundar seu entendimento, estude estes conceitos matemáticos:

Teoria dos grafos: conectividade, componentes e centralidade
Topologia: estruturas espaciais e propriedades de conectividade
Geometria computacional: triangulações e diagramas de Voronoi
Análise espectral: autovalores e autovetores de matrizes de adjacência
Estatística espacial: autocorrelação e dependência espacial

Referências que valem a pena

Encontrando o centro da ação: como o classificador de centroide funciona no futebol

19/12/202531/10/2025 Por antonino

Imagine que você é um olheiro de futebol tentando identificar em qual posição um jovem jogador se encaixaria melhor. Em vez de compará-lo com cada jogador individualmente, você analisa o “jogador médio” de cada posição – o atacante médio, o zagueiro médio, o meio-campista médio. Se o novo talento se parece mais com o atacante médio, ele provavelmente será um atacante. Esta abordagem de comparar com representantes centrais de cada categoria é exatamente o que o Classificador de Centroide Mais Próximo faz computacionalmente.

Como isso funciona na prática?

O classificador de centroide calcula o ponto central de cada classe no seu conjunto de dados. Para o futebol, isso significa calcular as estatísticas médias dos atacantes, a média dos zagueiros, e assim por diante. Quando um novo jogador precisa ser classificado, o algoritmo simplesmente mede a distância entre ele e cada um desses centroides, escolhendo a classe cujo centroide está mais próximo. Diferentemente do KNN que compara com vários vizinhos, aqui você compara apenas com um representante central de cada categoria, tornando o processo muito mais eficiente computacionalmente.

Mãos na massa: classificando jogadores por posição

"""
Classificador de Centroide Mais Próximo para posições de futebol
Classifica jogadores baseando-se nas características médias de cada posição
"""

from sklearn.neighbors import NearestCentroid
import numpy as np

# Estatísticas de jogadores: [altura_cm, velocidade_kmh, precisao_passe_%]
caracteristicas_jogadores = np.array([
    [185, 32, 82],  # Zagueiro
    [178, 35, 92],  # Meio-campista  
    [180, 38, 85],  # Atacante
    [188, 30, 80],  # Zagueiro
    [175, 36, 94],  # Meio-campista
    [177, 37, 87],  # Atacante
    [182, 31, 83],  # Zagueiro
    [176, 34, 91]   # Meio-campista
])

# Posições correspondentes
posicoes = np.array(['Zagueiro', 'Meio-campista', 'Atacante', 'Zagueiro', 
                    'Meio-campista', 'Atacante', 'Zagueiro', 'Meio-campista'])

# Criando o classificador de centroide
classificador = NearestCentroid()
classificador.fit(caracteristicas_jogadores, posicoes)

# Calculando os centroides manualmente para entendimento
centroide_zagueiro = caracteristicas_jogadores[posicoes == 'Zagueiro'].mean(axis=0)
centroide_meio = caracteristicas_jogadores[posicoes == 'Meio-campista'].mean(axis=0)
centroide_atacante = caracteristicas_jogadores[posicoes == 'Atacante'].mean(axis=0)

print("Centroides calculados:")
print(f"Zagueiro: {centroide_zagueiro}")
print(f"Meio-campista: {centroide_meio}") 
print(f"Atacante: {centroide_atacante}")

# Novo jogador para classificar: 179cm, 36km/h, 89% precisão
novo_jogador = np.array([[179, 36, 89]])
posicao_prevista = classificador.predict(novo_jogador)

print(f"\nO novo jogador deve atuar como: {posicao_prevista[0]}")

"""

Classificador de Centroide Mais Próximo para posições de futebol

Classifica jogadores baseando-se nas características médias de cada posição

"""

from sklearn.neighbors import NearestCentroid

import numpy as np

# Estatísticas de jogadores: [altura_cm, velocidade_kmh, precisao_passe_%]

caracteristicas_jogadores = np.array([

[185, 32, 82], # Zagueiro

[178, 35, 92], # Meio-campista

[180, 38, 85], # Atacante

[188, 30, 80], # Zagueiro

[175, 36, 94], # Meio-campista

[177, 37, 87], # Atacante

[182, 31, 83], # Zagueiro

[176, 34, 91] # Meio-campista

])

# Posições correspondentes

posicoes = np.array(['Zagueiro', 'Meio-campista', 'Atacante', 'Zagueiro',

'Meio-campista', 'Atacante', 'Zagueiro', 'Meio-campista'])

# Criando o classificador de centroide

classificador = NearestCentroid()

classificador.fit(caracteristicas_jogadores, posicoes)

# Calculando os centroides manualmente para entendimento

centroide_zagueiro = caracteristicas_jogadores[posicoes == 'Zagueiro'].mean(axis=0)

centroide_meio = caracteristicas_jogadores[posicoes == 'Meio-campista'].mean(axis=0)

centroide_atacante = caracteristicas_jogadores[posicoes == 'Atacante'].mean(axis=0)

print("Centroides calculados:")

print(f"Zagueiro: {centroide_zagueiro}")

print(f"Meio-campista: {centroide_meio}")

print(f"Atacante: {centroide_atacante}")

# Novo jogador para classificar: 179cm, 36km/h, 89% precisão

novo_jogador = np.array([[179, 36, 89]])

posicao_prevista = classificador.predict(novo_jogador)

print(f"\nO novo jogador deve atuar como: {posicao_prevista[0]}")

Os detalhes que fazem diferença

O classificador de centroide é extremamente eficiente em termos computacionais, especialmente com grandes conjuntos de dados. Contudo, ele assume que cada classe é esférica e similar em tamanho, o que nem sempre reflete a realidade. Dados desbalanceados podem distorcer os centroides, puxando-os na direção das classes majoritárias. Analogamente importante é a escolha da métrica de distância; enquanto a euclidiana é padrão, a Manhattan pode ser mais robusta a outliers. O algoritmo performa melhor quando as classes são linearmente separáveis e bem comportadas em termos de distribuição.

Vantagem principal: Extremamente rápido para treinamento e predição
Melhor uso: Dados com classes bem separadas e balanceadas
Limitação: Assume formas esféricas para as distribuições
Alternativas: Use KNN quando as classes tiverem formas complexas

Perguntas que os iniciantes fazem

Você deve estar se perguntando: “Por que usar centroide em vez do KNN tradicional?” Excelente questão! O centroide é muito mais rápido e requer menos memória, pois só armazena os pontos centrais. Uma confusão comum é pensar que o centroide é sempre a “melhor” representação – na verdade, outliers podem puxar o centroide para longe da maioria dos pontos. Outra dúvida frequente: “E se meu dados tiverem escalas diferentes?” Sempre normalize antes de usar centroide, pois características com variações maiores dominarão o cálculo de distância.

Para onde ir agora?

Experimente o classificador de centroide em seus próprios dados esportivos. Compare sua performance com KNN em termos de velocidade e precisão. Visualize os centroides em gráficos para entender como eles representam cada classe. O momento “aha!” acontece quando você percebe que para muitos problemas práticos, esta abordagem simples e eficiente é completamente suficiente.

Assuntos relacionados

Para aprofundar seu entendimento, estude estes conceitos matemáticos:

Geometria analítica: cálculo de centroides e distâncias
Estatística: médias, variâncias e distribuições multivariadas
Álgebra linear: espaços vetoriais e projeções
Otimização: métodos de agregação e representação
Teoria da decisão: classificadores lineares e limites de decisão