Arquivo de knn - Área de Trampo

Imagine que você está organizando uma biblioteca com milhares de livros sobre futebol. Você pode criar seções muito específicas (apenas livros sobre escanteios) ou seções mais amplas (todos os livros sobre técnicas ofensivas). Se as seções forem pequenas demais, você gastará muito tempo pulando entre elas. Se forem grandes demais, perderá tempo procurando dentro de cada seção. Este trade-off entre granularidade e eficiência é exatamente o que o parâmetro leaf_size controla nos algoritmos de árvore do Scikit-Learn.

Como isso funciona na prática?

O leaf_size determina quando o algoritmo para de dividir os dados e começa a usar busca linear dentro das partições finais. Quando você usa KDTree ou BallTree, o algoritmo constrói uma estrutura hierárquica que divide recursivamente seus dados. Um leaf_size pequeno cria muitas folhas pequenas, resultando em uma árvore mais profunda. Contudo, um leaf_size grande produz menos folhas mas cada uma contém mais pontos, tornando a busca dentro delas mais custosa. O valor padrão de 30 geralmente oferece um bom balanceamento para a maioria dos casos.

Mãos na massa: experimentando com diferentes leaf_size

"""
Demonstração do efeito do leaf_size no desempenho de KDTree
Compara tempo de busca e precisão com diferentes configurações
"""

from sklearn.neighbors import KDTree
import numpy as np
import time

# Gerando dados de jogadores de futebol: [altura, peso, velocidade, experiência]
np.random.seed(42)
dados_jogadores = np.random.rand(10000, 4)  # 10.000 jogadores

# Novo jogador para encontrar similares
novo_jogador = np.array([[0.7, 0.8, 0.9, 0.6]])

# Testando diferentes valores de leaf_size
valores_leaf_size = [10, 30, 100, 500]

print("Comparação de desempenho com diferentes leaf_size:\n")

for leaf_size in valores_leaf_size:
    # Construindo a árvore com leaf_size específico
    inicio = time.time()
    arvore = KDTree(dados_jogadores, leaf_size=leaf_size)
    tempo_construcao = time.time() - inicio
    
    # Buscando vizinhos mais próximos
    inicio_busca = time.time()
    distancias, indices = arvore.query(novo_jogador, k=5)
    tempo_busca = time.time() - inicio_busca
    
    print(f"leaf_size: {leaf_size:3d} | Construção: {tempo_construcao:.4f}s | Busca: {tempo_busca:.6f}s")
    print(f"Vizinhos encontrados: {indices[0]}\n")

"""

Demonstração do efeito do leaf_size no desempenho de KDTree

Compara tempo de busca e precisão com diferentes configurações

"""

from sklearn.neighbors import KDTree

import numpy as np

import time

# Gerando dados de jogadores de futebol: [altura, peso, velocidade, experiência]

np.random.seed(42)

dados_jogadores = np.random.rand(10000, 4) # 10.000 jogadores

# Novo jogador para encontrar similares

novo_jogador = np.array([[0.7, 0.8, 0.9, 0.6]])

# Testando diferentes valores de leaf_size

valores_leaf_size = [10, 30, 100, 500]

print("Comparação de desempenho com diferentes leaf_size:\n")

for leaf_size in valores_leaf_size:

# Construindo a árvore com leaf_size específico

inicio = time.time()

arvore = KDTree(dados_jogadores, leaf_size=leaf_size)

tempo_construcao = time.time() - inicio

# Buscando vizinhos mais próximos

inicio_busca = time.time()

distancias, indices = arvore.query(novo_jogador, k=5)

tempo_busca = time.time() - inicio_busca

print(f"leaf_size: {leaf_size:3d} | Construção: {tempo_construcao:.4f}s | Busca: {tempo_busca:.6f}s")

print(f"Vizinhos encontrados: {indices[0]}\n")

Os detalhes que fazem diferença

Escolher o leaf_size ideal depende crucialmente do tamanho e dimensionalidade dos seus dados. Para conjuntos pequenos (até 1.000 amostras), valores entre 10 e 30 funcionam bem. Para dados maiores, você pode aumentar para 50-100 para melhor performance. Contudo, em alta dimensionalidade (acima de 20 features), valores menores geralmente performam melhor porque a “maldição da dimensionalidade” torna as partições menos eficientes. Analogamente importante é considerar o uso pretendido: se você fará muitas consultas, vale a pena otimizar o tempo de busca com um leaf_size maior.

Pequenos datasets: leaf_size 10-30 para máxima precisão
Grandes datasets: leaf_size 50-100 para melhor performance
Alta dimensionalidade: leaf_size 10-20 devido à maldição dimensional
Muitas consultas: leaf_size maior para buscas mais rápidas

Perguntas que os iniciantes fazem

Você deve estar se perguntando: “Por que não usar sempre o menor leaf_size possível para máxima precisão?” Excelente questão! A resposta é que folhas muito pequenas aumentam dramaticamente o tempo de construção da árvore e o uso de memória. Uma confusão comum é pensar que leaf_size afeta a precisão dos resultados – na verdade, ele apenas controla a eficiência, pois a busca final sempre encontra os vizinhos exatos. Outra dúvida frequente: “Devo usar o mesmo leaf_size para KDTree e BallTree?” Geralmente sim, mas BallTree pode se beneficiar de valores ligeiramente maiores em certos casos.

Para onde ir agora?

Experimente ajustar o leaf_size em seus próprios projetos com dados reais. Comece com o valor padrão de 30 e depois teste valores menores e maiores, medindo tanto o tempo de construção quanto o tempo de busca. Use a ferramenta %timeit do Jupyter para medições precisas de performance. O momento “aha!” acontece quando você encontra o sweet spot onde a árvore é construída rapidamente mas ainda mantém buscas eficientes.

Assuntos relacionados

Para entender completamente o leaf_size, estude estes conceitos fundamentais:

Estruturas de dados: árvores binárias e complexidade algorítmica
Otimização: trade-offs entre tempo e espaço de memória
Geometria computacional: particionamento de espaços multidimensionais
Complexidade assintótica: notação Big O para análise de algoritmos
Balanceamento de árvores: profundidade vs largura das estruturas

Referências que valem a pena

Imagine que você precisa precificar um apartamento que acabou de chegar ao mercado. Naturalmente, você analisa imóveis similares vendidos recentemente na região. Se três apartamentos com características parecidas foram vendidos por R$ 450.000, R$ 460.000 e R$ 455.000, um valor around de R$ 455.000 parece razoável. Este processo intuitivo de estimar valores baseando-se em exemplos similares é exatamente o que o algoritmo de Regressão dos Vizinhos Mais Próximos faz computacionalmente.

Como isso funciona na prática?

O KNN Regressor opera de maneira surpreendentemente simples e intuitiva. Primeiramente, você precisa de dados históricos – pense nisso como seu registro completo de transações imobiliárias. Quando um novo imóvel precisa ser avaliado, o algoritmo identifica os ‘K’ propriedades mais similares no banco de dados. Posteriormente, ele calcula a média dos valores desses vizinhos para gerar a estimativa. Similarmente ao classificador, este algoritmo também é considerado “preguiçoso”.

Mãos na massa: estimando o preço de um apartamento

"""
Regressão com K-Nearest Neighbors para precificação de imóveis
Estimativa de valores baseada em características similares
"""

from sklearn.neighbors import KNeighborsRegressor
import numpy as np

# Dados de imóveis vendidos: [m², quartos, banheiros, ano]
caracteristicas_imoveis = np.array([
    [75, 2, 1, 1995], [120, 3, 2, 2010], [85, 2, 1, 2005],
    [150, 4, 3, 2015], [95, 3, 2, 2008], [180, 4, 3, 2020]
])

# Preços reais de venda (em R$ mil)
precos_venda = np.array([380, 550, 420, 720, 480, 850])

# Criando regressor com 3 vizinhos
regressor = KNeighborsRegressor(n_neighbors=3)
regressor.fit(caracteristicas_imoveis, precos_venda)

# Novo apartamento para avaliar
novo_apartamento = np.array([[90, 2, 1, 2007]])

# Estimando o preço
preco_estimado = regressor.predict(novo_apartamento)
print(f"Preço estimado: R$ {preco_estimado[0]:.0f}.000")

"""

Regressão com K-Nearest Neighbors para precificação de imóveis

Estimativa de valores baseada em características similares

"""

from sklearn.neighbors import KNeighborsRegressor

import numpy as np

# Dados de imóveis vendidos: [m², quartos, banheiros, ano]

caracteristicas_imoveis = np.array([

[75, 2, 1, 1995], [120, 3, 2, 2010], [85, 2, 1, 2005],

[150, 4, 3, 2015], [95, 3, 2, 2008], [180, 4, 3, 2020]

])

# Preços reais de venda (em R$ mil)

precos_venda = np.array([380, 550, 420, 720, 480, 850])

# Criando regressor com 3 vizinhos

regressor = KNeighborsRegressor(n_neighbors=3)

regressor.fit(caracteristicas_imoveis, precos_venda)

# Novo apartamento para avaliar

novo_apartamento = np.array([[90, 2, 1, 2007]])

# Estimando o preço

preco_estimado = regressor.predict(novo_apartamento)

print(f"Preço estimado: R$ {preco_estimado[0]:.0f}.000")

Os detalhes que fazem diferença

Escolher o valor de ‘K’ impacta diretamente a precisão das estimativas. Um K muito baixo torna o modelo sensível a outliers. Contudo, um K muito alto pode suavizar excessivamente as previsões. A normalização dos dados também é essencial quando características têm escalas diferentes.

Escolha de K: Comece com K=3-5 e ajuste conforme necessário
Ponderação: Use weights=’distance’ para valorizar vizinhos próximos
Normalização: Sempre escale dados com unidades diferentes
Métricas: Use RMSE e R² para avaliação

Perguntas que os iniciantes fazem

Você deve estar se perguntando: “Qual a diferença entre classificação e regressão KNN?” Enquanto a classificação prevê categorias, a regressão estima valores contínuos. Outra dúvida comum: “E se os dados tiverem escalas diferentes?” Use StandardScaler antes de aplicar o KNN.

Para onde ir agora?

Experimente aplicar o KNN Regressor em seus próprios dados. Teste diferentes valores de K e compare os resultados. Pratique a normalização e observe como melhora a precisão.

Assuntos relacionados

Estatística: médias, variância, correlação
Geometria: distâncias em espaços multidimensionais
Álgebra linear: normalização de vetores
Otimização: seleção de parâmetros ideais

O tamanho ideal da folha: como o leaf_size afeta sua busca por vizinhos

Como isso funciona na prática?

Mãos na massa: experimentando com diferentes leaf_size

Os detalhes que fazem diferença

Perguntas que os iniciantes fazem

Para onde ir agora?

Assuntos relacionados

Referências que valem a pena

Descobrindo o preço justo: como a regressão KNN estima valores no mercado imobiliário

Como isso funciona na prática?

Mãos na massa: estimando o preço de um apartamento

Os detalhes que fazem diferença

Perguntas que os iniciantes fazem

Para onde ir agora?

Assuntos relacionados

Referências que valem a pena