Arquivo de inteligência-artificial

Imagine que você está aprendendo a fazer pão pela primeira vez. Primeiro, você estuda receitas, experimenta diferentes técnicas e ajusta ingredientes – isso é o treinamento. Depois de dominar o processo, quando alguém te entrega farinha, água e fermento, você transforma esses ingredientes em pão fresco – isso é a transformação. No machine learning, esses dois conceitos trabalham juntos: o treinamento ensina o algoritmo a reconhecer padrões, e a transformação aplica esse conhecimento a novos dados.

Como isso funciona na prática?

O treinamento (training) é o processo onde o algoritmo aprende com dados históricos, ajustando seus parâmetros internos para encontrar padrões e relações. Pense nisso como um estudante revisando material antes de uma prova. A transformação (transform) é quando o modelo treinado aplica seu conhecimento a dados novos nunca vistos antes, similar a um estudante usando o que aprendeu para resolver questões da prova. No Scikit-Learn, essa separação é fundamental e segue o padrão consistente: primeiro você chama fit() para treinar, depois transform() ou predict() para aplicar.

Mãos na massa: treinando e transformando dados de receitas

"""
Demonstração completa do ciclo treinamento-transformacao
Aplica PCA para reduzir dimensionalidade de características de receitas
"""

from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
import numpy as np

# Dados de receitas: [farinha_g, agua_ml, fermento_g, sal_g, acucar_g]
receitas_treino = np.array([
    [500, 300, 10, 10, 5],    # Pão francês
    [400, 240, 15, 8, 20],    # Pão doce
    [600, 360, 12, 12, 0],    # Pão integral
    [450, 270, 8, 9, 2],      # Pão caseiro
    [350, 210, 20, 7, 25]     # Pão de leite
])

# Novas receitas para transformar (dados nunca vistos)
receitas_novas = np.array([
    [480, 290, 11, 9, 3],     # Nova receita similar
    [550, 330, 9, 11, 1]      # Outra nova receita
])

print("=== FASE 1: TREINAMENTO (fit) ===")
print("Dados de treinamento originais (5 dimensões):")
print(receitas_treino)

# Criando pipeline: normalização + PCA
pipeline = Pipeline([
    ('scaler', StandardScaler()),     # Normaliza os dados
    ('pca', PCA(n_components=2))      # Reduz para 2 dimensões
])

# TREINAMENTO: Aprendendo com os dados de treino
pipeline.fit(receitas_treino)

# Extraindo o PCA treinado para inspecionar
pca_treinado = pipeline.named_steps['pca']
print(f"\nVariância explicada pelos componentes: {pca_treinado.explained_variance_ratio_}")
print(f"Variância total preservada: {sum(pca_treinado.explained_variance_ratio_):.1%}")

print("\n=== FASE 2: TRANSFORMAÇÃO (transform) ===")
print("Aplicando o modelo treinado a novas receitas:")

# TRANSFORMAÇÃO: Aplicando às novas receitas
receitas_transformadas = pipeline.transform(receitas_novas)

print("Novas receitas transformadas (2 dimensões):")
print(receitas_transformadas)

# Verificando a transformação inversa (opcional)
receitas_reconstruidas = pipeline.inverse_transform(receitas_transformadas)
print("\nReconstrução das receitas (com perda de informação):")
print(receitas_reconstruidas)

print("\nDiferença entre original e reconstruído:")
print(receitas_novas - receitas_reconstruidas)

"""

Demonstração completa do ciclo treinamento-transformacao

Aplica PCA para reduzir dimensionalidade de características de receitas

"""

from sklearn.decomposition import PCA

from sklearn.preprocessing import StandardScaler

from sklearn.pipeline import Pipeline

import numpy as np

# Dados de receitas: [farinha_g, agua_ml, fermento_g, sal_g, acucar_g]

receitas_treino = np.array([

[500, 300, 10, 10, 5], # Pão francês

[400, 240, 15, 8, 20], # Pão doce

[600, 360, 12, 12, 0], # Pão integral

[450, 270, 8, 9, 2], # Pão caseiro

[350, 210, 20, 7, 25] # Pão de leite

])

# Novas receitas para transformar (dados nunca vistos)

receitas_novas = np.array([

[480, 290, 11, 9, 3], # Nova receita similar

[550, 330, 9, 11, 1] # Outra nova receita

])

print("=== FASE 1: TREINAMENTO (fit) ===")

print("Dados de treinamento originais (5 dimensões):")

print(receitas_treino)

# Criando pipeline: normalização + PCA

pipeline = Pipeline([

('scaler', StandardScaler()), # Normaliza os dados

('pca', PCA(n_components=2)) # Reduz para 2 dimensões

])

# TREINAMENTO: Aprendendo com os dados de treino

pipeline.fit(receitas_treino)

# Extraindo o PCA treinado para inspecionar

pca_treinado = pipeline.named_steps['pca']

print(f"\nVariância explicada pelos componentes: {pca_treinado.explained_variance_ratio_}")

print(f"Variância total preservada: {sum(pca_treinado.explained_variance_ratio_):.1%}")

print("\n=== FASE 2: TRANSFORMAÇÃO (transform) ===")

print("Aplicando o modelo treinado a novas receitas:")

# TRANSFORMAÇÃO: Aplicando às novas receitas

receitas_transformadas = pipeline.transform(receitas_novas)

print("Novas receitas transformadas (2 dimensões):")

print(receitas_transformadas)

# Verificando a transformação inversa (opcional)

receitas_reconstruidas = pipeline.inverse_transform(receitas_transformadas)

print("\nReconstrução das receitas (com perda de informação):")

print(receitas_reconstruidas)

print("\nDiferença entre original e reconstruído:")

print(receitas_novas - receitas_reconstruidas)

Os detalhes que fazem diferença

O treinamento e a transformação devem sempre usar exatamente o mesmo pré-processamento para garantir consistência. Um erro comum é treinar com dados normalizados e depois transformar dados não normalizados, ou vice-versa. Contudo, o Scikit-Learn oferece pipelines que automatizam essa consistência. Analogamente importante é a separação estrita entre dados de treino e teste; você nunca deve usar informações dos dados de teste durante o treinamento. A ordem das operações também é crucial: primeiro normalizar, depois aplicar transformações mais complexas como PCA. Lembre-se que alguns algoritmos como KNN não têm fase de treinamento tradicional – eles apenas memorizam os dados.

Ordem correta: Sempre treine antes de transformar
Consistência: Use o mesmo pré-processamento em treino e transformação
Pipelines: Automatizam a sequência de operações
Validação: Nunca use dados de teste no treinamento

Perguntas que os iniciantes fazem

Você deve estar se perguntando: “Por que não treinar e transformar tudo de uma vez?” Excelente questão! A separação permite que você valide o modelo em dados não vistos durante o treinamento, prevenindo overfitting. Uma confusão comum é entre fit_transform() e fazer fit() seguido de transform() separadamente – são equivalentes, mas o método combinado é mais conveniente para dados de treino. Outra dúvida frequente: “Posso reutilizar um modelo treinado com dados diferentes?” Sim! Uma vez treinado, você pode aplicar o modelo a quantos dados novos quiser, mas não pode retreinar parcialmente – é tudo ou nada.

Para onde ir agora?

Pratique criando pipelines completos com múltiplos passos de transformação. Experimente diferentes sequências: normalização, seleção de características, redução dimensional. Use validação cruzada para garantir que seu pipeline generaliza bem. O momento “aha!” acontece quando você percebe que pipelines robustos tornam seu código mais reproduzível e menos propenso a erros de pré-processamento.

Assuntos relacionados

Para dominar treinamento e transformação, estude estes conceitos:

Estatística: estimação de parâmetros e inferência
Otimização: algoritmos de aprendizado e convergência
Validação de modelos: overfitting, underfitting e generalização
Pré-processamento: normalização, codificação e imputação
Engenharia de features: criação e seleção de características

Referências que valem a pena

Encontrando destinos similares para suas próximas férias

Imagine que você está planejando suas próximas férias e adorou sua última viagem para Bali. Naturalmente, você buscaria destinos com características similares: praias paradisíacas, cultura rica e preços acessíveis. O algoritmo dos K-Nearest Neighbors (KNN) funciona exatamente assim no mundo das viagens. Ele encontra os destinos mais similares baseando-se em suas características geográficas, culturais e de custo.

Como um algoritmo pode recomendar destinos apenas comparando características?

Você deve estar se perguntando como um método aparentemente simples pode analisar a complexidade das preferências de viagem. A beleza do KNN está em sua abordagem baseada em similaridade direta. Analogamente a como um agente de viagens experiente recomenda destinos, o algoritmo encontra padrões sem precisar de modelos complexos. Ele simplesmente localiza os destinos com perfis mais próximos e faz recomendações baseadas nesses vizinhos.

O conceito matemático fundamental envolve calcular distâncias entre perfis de destinos no espaço multidimensional. A distância euclidiana mede diferenças nas características de cada local:

$d(x,y) = \sqrt{\sum_{i=1}^n (x_i – y_i)^2}$

Esta fórmula considera todas as métricas de viagem simultaneamente para encontrar destinos verdadeiramente similares.

Mãos na massa: classificando tipos de destinos turísticos

Vamos construir um sistema para recomendar destinos baseado em preferências de viagem:

from sklearn.neighbors import KNeighborsClassifier
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, classification_report
import numpy as np

# Simulando dados de destinos turísticos
# Características: custo, clima, atividades, infraestrutura, etc.
X, y = make_classification(
    n_samples=300,            # 300 destinos no banco de dados
    n_features=5,             # 5 características principais
    n_classes=4,              # 4 tipos: praia, montanha, cidade, aventura
    n_clusters_per_class=1,
    random_state=42
)

# Dividindo em dados de treino e teste
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.25, random_state=42
)

# IMPORTANTE: KNN é sensível à escala dos dados
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Criando nosso classificador de destinos
destination_classifier = KNeighborsClassifier(
    n_neighbors=5,           # Considera 5 destinos similares
    weights='distance',      # Destinos mais próximos têm mais influência
    algorithm='auto',        # Escolhe o melhor algoritmo automaticamente
    metric='euclidean'       # Distância padrão
)

# Treinamento - o algoritmo memoriza os perfis dos destinos
destination_classifier.fit(X_train_scaled, y_train)

# Fazendo previsões
y_pred = destination_classifier.predict(X_test_scaled)
accuracy = accuracy_score(y_test, y_pred)

print(f"Desempenho do classificador de destinos:")
print(f"Acurácia: {accuracy:.1%}")
print(f"Número de destinos similares considerados: {destination_classifier.n_neighbors}")

# Exemplo de uma nova recomendação
preferences = [[0.8, -0.2, 1.1, 0.4, -0.7]]  # Preferências do viajante
preferences_scaled = scaler.transform(preferences)
predicted_type = destination_classifier.predict(preferences_scaled)

types = ['Praia', 'Montanha', 'Cidade', 'Aventura']
print(f"Tipo de destino recomendado: {types[predicted_type[0]]}")

# Relatório detalhado
print(f"\nRelatório de classificação:")
print(classification_report(y_test, y_pred, target_names=types))

from sklearn.neighbors import KNeighborsClassifier

from sklearn.datasets import make_classification

from sklearn.model_selection import train_test_split

from sklearn.preprocessing import StandardScaler

from sklearn.metrics import accuracy_score, classification_report

import numpy as np

# Simulando dados de destinos turísticos

# Características: custo, clima, atividades, infraestrutura, etc.

X, y = make_classification(

n_samples=300, # 300 destinos no banco de dados

n_features=5, # 5 características principais

n_classes=4, # 4 tipos: praia, montanha, cidade, aventura

n_clusters_per_class=1,

random_state=42

)

# Dividindo em dados de treino e teste

X_train, X_test, y_train, y_test = train_test_split(

X, y, test_size=0.25, random_state=42

)

# IMPORTANTE: KNN é sensível à escala dos dados

scaler = StandardScaler()

X_train_scaled = scaler.fit_transform(X_train)

X_test_scaled = scaler.transform(X_test)

# Criando nosso classificador de destinos

destination_classifier = KNeighborsClassifier(

n_neighbors=5, # Considera 5 destinos similares

weights='distance', # Destinos mais próximos têm mais influência

algorithm='auto', # Escolhe o melhor algoritmo automaticamente

metric='euclidean' # Distância padrão

)

# Treinamento - o algoritmo memoriza os perfis dos destinos

destination_classifier.fit(X_train_scaled, y_train)

# Fazendo previsões

y_pred = destination_classifier.predict(X_test_scaled)

accuracy = accuracy_score(y_test, y_pred)

print(f"Desempenho do classificador de destinos:")

print(f"Acurácia: {accuracy:.1%}")

print(f"Número de destinos similares considerados: {destination_classifier.n_neighbors}")

# Exemplo de uma nova recomendação

preferences = [[0.8, -0.2, 1.1, 0.4, -0.7]] # Preferências do viajante

preferences_scaled = scaler.transform(preferences)

predicted_type = destination_classifier.predict(preferences_scaled)

types = ['Praia', 'Montanha', 'Cidade', 'Aventura']

print(f"Tipo de destino recomendado: {types[predicted_type[0]]}")

# Relatório detalhado

print(f"\nRelatório de classificação:")

print(classification_report(y_test, y_pred, target_names=types))

Por que o KNN é tão eficaz na recomendação de viagens?

A simplicidade conceitual do algoritmo esconde um poder analítico surpreendente para dados turísticos. Contudo, sua verdadeira força está na flexibilidade para capturar relações complexas sem suposições restritivas. O KNN pode identificar padrões de preferência não-lineares que modelos mais rígidos poderiam perder completamente. Similarmente a como agentes de viagens experientes entendem clientes, o algoritmo adapta-se naturalmente às particularidades dos dados de cada destino.

Encontrando o número ideal de destinos de referência

Escolher o K certo é crucial para recomendações precisas. Portanto, vamos testar diferentes valores:

import matplotlib.pyplot as plt
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# Testando diferentes valores de K
k_values = range(1, 21)
train_scores = []
test_scores = []

for k in k_values:
    # Criando e treinando o classificador
    knn = KNeighborsClassifier(n_neighbors=k)
    knn.fit(X_train_scaled, y_train)
    
    # Calculando acurácias
    train_accuracy = knn.score(X_train_scaled, y_train)
    test_accuracy = knn.score(X_test_scaled, y_test)
    
    train_scores.append(train_accuracy)
    test_scores.append(test_accuracy)

# Encontrando o melhor K
best_k = k_values[np.argmax(test_scores)]
best_accuracy = max(test_scores)

print(f"Melhor K: {best_k} destinos de referência")
print(f"Acurácia correspondente: {best_accuracy:.1%}")

# Visualizando a relação entre K e performance
plt.figure(figsize=(12, 6))
plt.plot(k_values, train_scores, 'o-', label='Acurácia Treino', linewidth=2)
plt.plot(k_values, test_scores, 'o-', label='Acurácia Teste', linewidth=2)
plt.axvline(best_k, color='red', linestyle='--', label=f'Melhor K = {best_k}')
plt.xlabel('Número de Destinos de Referência (K)')
plt.ylabel('Acurácia da Classificação')
plt.title('Encontrando o Número Ideal de Referências para Recomendação de Viagens')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

print("\nPadrões observados na análise:")
print("K muito baixo: superajuste a características específicas")
print("K muito alto: perda de nuances culturais importantes")
print("K ideal: balance entre personalização e generalização")

import matplotlib.pyplot as plt

from sklearn.neighbors import KNeighborsClassifier

from sklearn.metrics import accuracy_score

# Testando diferentes valores de K

k_values = range(1, 21)

train_scores = []

test_scores = []

for k in k_values:

# Criando e treinando o classificador

knn = KNeighborsClassifier(n_neighbors=k)

knn.fit(X_train_scaled, y_train)

# Calculando acurácias

train_accuracy = knn.score(X_train_scaled, y_train)

test_accuracy = knn.score(X_test_scaled, y_test)

train_scores.append(train_accuracy)

test_scores.append(test_accuracy)

# Encontrando o melhor K

best_k = k_values[np.argmax(test_scores)]

best_accuracy = max(test_scores)

print(f"Melhor K: {best_k} destinos de referência")

print(f"Acurácia correspondente: {best_accuracy:.1%}")

# Visualizando a relação entre K e performance

plt.figure(figsize=(12, 6))

plt.plot(k_values, train_scores, 'o-', label='Acurácia Treino', linewidth=2)

plt.plot(k_values, test_scores, 'o-', label='Acurácia Teste', linewidth=2)

plt.axvline(best_k, color='red', linestyle='--', label=f'Melhor K = {best_k}')

plt.xlabel('Número de Destinos de Referência (K)')

plt.ylabel('Acurácia da Classificação')

plt.title('Encontrando o Número Ideal de Referências para Recomendação de Viagens')

plt.legend()

plt.grid(True, alpha=0.3)

plt.show()

print("\nPadrões observados na análise:")

print("K muito baixo: superajuste a características específicas")

print("K muito alto: perda de nuances culturais importantes")

print("K ideal: balance entre personalização e generalização")

Lições práticas do turismo para a ciência de dados

Normalizar métricas é essencial pois diferentes escalas distorcem similaridades entre destinos. Escolher a métrica de distância correta depende do tipo de relação entre as variáveis turísticas. Ponderar destinos por proximidade geralmente produz recomendações mais refinadas. Considerar diferentes algoritmos de busca otimiza performance com muitos destinos no banco de dados. Entretanto, lembre-se que o KNN pode ser computacionalmente intensivo com catálogos muito extensos.

Comparando estratégias de ponderação para recomendação

Diferentes abordagens de peso impactam significativamente as recomendações. Analogamente, cada estratégia serve melhor a diferentes tipos de viajantes:

from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# Estratégias de peso para comparar
weight_strategies = [
    ('uniform', 'Peso Uniforme'),
    ('distance', 'Peso por Proximidade')
]

results = []

for weights, description in weight_strategies:
    knn = KNeighborsClassifier(
        n_neighbors=7,
        weights=weights,
        metric='euclidean'
    )
    
    knn.fit(X_train_scaled, y_train)
    accuracy = knn.score(X_test_scaled, y_test)
    
    results.append({
        'weights': weights,
        'description': description,
        'accuracy': accuracy
    })

# Mostrando resultados comparativos
print("Comparação de Estratégias de Ponderação:")
for result in sorted(results, key=lambda x: x['accuracy'], reverse=True):
    print(f"{result['description']:20} | Acurácia: {result['accuracy']:.3f}")

print("\nRecomendações para sistemas de viagem:")
print("Peso uniforme: quando todos os destinos são igualmente interessantes")
print("Peso por proximidade: quando destinos mais similares são preferíveis")
print("Peso personalizado: para preferências específicas do viajante")

from sklearn.neighbors import KNeighborsClassifier

from sklearn.metrics import accuracy_score

# Estratégias de peso para comparar

weight_strategies = [

('uniform', 'Peso Uniforme'),

('distance', 'Peso por Proximidade')

]

results = []

for weights, description in weight_strategies:

knn = KNeighborsClassifier(

n_neighbors=7,

weights=weights,

metric='euclidean'

)

knn.fit(X_train_scaled, y_train)

accuracy = knn.score(X_test_scaled, y_test)

results.append({

'weights': weights,

'description': description,

'accuracy': accuracy

})

# Mostrando resultados comparativos

print("Comparação de Estratégias de Ponderação:")

for result in sorted(results, key=lambda x: x['accuracy'], reverse=True):

print(f"{result['description']:20} | Acurácia: {result['accuracy']:.3f}")

print("\nRecomendações para sistemas de viagem:")

print("Peso uniforme: quando todos os destinos são igualmente interessantes")

print("Peso por proximidade: quando destinos mais similares são preferíveis")

print("Peso personalizado: para preferências específicas do viajante")

Perguntas frequentes sobre aplicações turísticas

Como escolher o K ideal para recomendação de destinos? Comece com a raiz quadrada do número de destinos no catálogo. Use validação cruzada para refinar essa escolha baseada em satisfação do usuário. Valores ímpares evitam empates em problemas de classificação. Principalmente, considere o trade-off entre personalização e diversidade de opções.

O KNN funciona com características qualitativas de destinos? Certamente, mas você precisa usar métricas apropriadas como a distância de Hamming. Para dados mistos (quantitativos e qualitativos), considere transformações ou métricas customizadas. Características como “tipo de culinária local” podem ser convertidas em representações numéricas significativas.

Por que o KNN é lento com muitos destinos no catálogo? Porque ele calcula distâncias para todos os locais durante cada recomendação. Estruturas como KD-Trees e Ball Trees aceleram esse processo significativamente. Em catálogos muito grandes, considere amostragem estratégica ou métodos aproximados de busca.

Quando devo evitar KNN para recomendação de viagens? Evite quando tiver centenas de características ou quando precisar de explicações detalhadas para cada recomendação. Situações que exigem incorporação de feedback em tempo real também não combinam bem com KNN. Ademais, contextos com preferências temporais complexas podem exigir abordagens sequenciais especializadas.

Aplicação em planejamento de roteiros personalizados

Vamos expandir para um cenário mais específico de criação de itinerários. Similarmente ao que agências especializadas fazem, podemos prever orçamentos:

from sklearn.neighbors import KNeighborsRegressor
import numpy as np
import matplotlib.pyplot as plt

# Simulando dados de viagens realizadas
np.random.seed(42)
n_trips = 150

# Características: duração, tipo de hospedagem, alimentação, etc.
duration = np.random.uniform(3, 21, n_trips)
accommodation = np.random.uniform(1, 5, n_trips)  # 1=hostel, 5=hotel 5 estrelas
food_budget = np.random.uniform(20, 100, n_trips)
activities = np.random.uniform(0, 3, n_trips)     # Número de atividades por dia
season = np.random.uniform(0, 1, n_trips)         # 0=baixa temporada, 1=alta temporada

# Custo total baseado nas características
base_cost = 500.0
duration_effect = duration * 50.0
accommodation_effect = accommodation * 200.0
food_effect = food_budget * duration
activities_effect = activities * 75.0 * duration
season_effect = season * 300.0

total_cost = base_cost + duration_effect + accommodation_effect + food_effect + activities_effect + season_effect + np.random.normal(0, 200, n_trips)

# Preparando os dados
X_trips = np.column_stack([duration, accommodation, food_budget, activities, season])
y_trips = total_cost

# Criando e treinando o modelo de previsão
budget_predictor = KNeighborsRegressor(n_neighbors=5, weights='distance')
budget_predictor.fit(X_trips, y_trips)

# Visualizando uma previsão específica
sample_trip = [[10, 3, 50, 2, 0.7]]  # 10 dias, hotel 3 estrelas, R$50/dia comida, 2 atividades/dia, alta temporada
predicted_budget = budget_predictor.predict(sample_trip)

print(f"Exemplo de previsão de orçamento:")
print(f"Duração: 10 dias, Hospedagem: 3 estrelas")
print(f"Alimentação: R$50/dia, Atividades: 2/dia")
print(f"Temporada: Alta (0.7)")
print(f"Orçamento previsto: R$ {predicted_budget[0]:.2f}")

# Análise de sensibilidade à duração da viagem
duration_range = np.linspace(5, 20, 30)
cost_by_duration = []

for days in duration_range:
    test_trip = [[days, 3, 50, 2, 0.7]]
    cost = budget_predictor.predict(test_trip)
    cost_by_duration.append(cost[0])

plt.figure(figsize=(10, 6))
plt.plot(duration_range, cost_by_duration, linewidth=2)
plt.xlabel('Duração da Viagem (dias)')
plt.ylabel('Custo Total Previsto (R$)')
plt.title('Impacto da Duração no Orçamento de Viagem')
plt.grid(True, alpha=0.3)
plt.show()

from sklearn.neighbors import KNeighborsRegressor

import numpy as np

import matplotlib.pyplot as plt

# Simulando dados de viagens realizadas

np.random.seed(42)

n_trips = 150

# Características: duração, tipo de hospedagem, alimentação, etc.

duration = np.random.uniform(3, 21, n_trips)

accommodation = np.random.uniform(1, 5, n_trips) # 1=hostel, 5=hotel 5 estrelas

food_budget = np.random.uniform(20, 100, n_trips)

activities = np.random.uniform(0, 3, n_trips) # Número de atividades por dia

season = np.random.uniform(0, 1, n_trips) # 0=baixa temporada, 1=alta temporada

# Custo total baseado nas características

base_cost = 500.0

duration_effect = duration * 50.0

accommodation_effect = accommodation * 200.0

food_effect = food_budget * duration

activities_effect = activities * 75.0 * duration

season_effect = season * 300.0

total_cost = base_cost + duration_effect + accommodation_effect + food_effect + activities_effect + season_effect + np.random.normal(0, 200, n_trips)

# Preparando os dados

X_trips = np.column_stack([duration, accommodation, food_budget, activities, season])

y_trips = total_cost

# Criando e treinando o modelo de previsão

budget_predictor = KNeighborsRegressor(n_neighbors=5, weights='distance')

budget_predictor.fit(X_trips, y_trips)

# Visualizando uma previsão específica

sample_trip = [[10, 3, 50, 2, 0.7]] # 10 dias, hotel 3 estrelas, R$50/dia comida, 2 atividades/dia, alta temporada

predicted_budget = budget_predictor.predict(sample_trip)

print(f"Exemplo de previsão de orçamento:")

print(f"Duração: 10 dias, Hospedagem: 3 estrelas")

print(f"Alimentação: R$50/dia, Atividades: 2/dia")

print(f"Temporada: Alta (0.7)")

print(f"Orçamento previsto: R$ {predicted_budget[0]:.2f}")

# Análise de sensibilidade à duração da viagem

duration_range = np.linspace(5, 20, 30)

cost_by_duration = []

for days in duration_range:

test_trip = [[days, 3, 50, 2, 0.7]]

cost = budget_predictor.predict(test_trip)

cost_by_duration.append(cost[0])

plt.figure(figsize=(10, 6))

plt.plot(duration_range, cost_by_duration, linewidth=2)

plt.xlabel('Duração da Viagem (dias)')

plt.ylabel('Custo Total Previsto (R$)')

plt.title('Impacto da Duração no Orçamento de Viagem')

plt.grid(True, alpha=0.3)

plt.show()

Próximos passos para sistemas de recomendação avançados

Explore weighted KNN para dar mais peso a destinos recentemente populares. Experimente diferentes métricas de distância que capturem melhor similaridade no contexto turístico. Aprenda sobre feature engineering para criar características mais informativas sobre destinos. Estude ensemble methods combinando múltiplos modelos KNN com diferentes parâmetros. Igualmente importante, considere incorporar dados sazonais para capturar variações de preço e disponibilidade.

Conceitos matemáticos para recomendações precisas

Geometria analítica fornece bases para medidas de similaridade multidimensional entre destinos. Estatística multivariada ajuda a entender correlações entre características turísticas. Teoria de decisão auxilia na ponderação de preferências do viajante. Álgebra linear otimiza cálculos de distância em grandes catálogos. Análise de clusters identifica grupos de destinos naturalmente similares. Processos estocásticos modelam flutuações de preço ao longo do tempo. Principalmente, otimização convexa seleciona hiperparâmetros de forma sistemática para maximizar satisfação.

Referências para aprendizado contínuo

O algoritmo dos vizinhos mais próximos oferece uma abordagem intuitiva e poderosa para problemas baseados em similaridade no turismo. Sua aplicação na recomendação de destinos demonstra como conceitos simples podem resolver problemas complexos quando implementados com entendimento adequado do domínio e cuidado analítico. Afinal, encontrar o destino perfeito para suas próximas férias nunca foi tão científico!

Aprendendo e aplicando: como o treinamento e transformação criam modelos inteligentes

Como isso funciona na prática?

Mãos na massa: treinando e transformando dados de receitas

Os detalhes que fazem diferença

Perguntas que os iniciantes fazem

Para onde ir agora?

Assuntos relacionados

Referências que valem a pena

Vizinhos mais próximos: quando as viagens encontram a inteligência artificial

Encontrando destinos similares para suas próximas férias

Como um algoritmo pode recomendar destinos apenas comparando características?

Mãos na massa: classificando tipos de destinos turísticos

Por que o KNN é tão eficaz na recomendação de viagens?

Encontrando o número ideal de destinos de referência

Lições práticas do turismo para a ciência de dados

Comparando estratégias de ponderação para recomendação

Perguntas frequentes sobre aplicações turísticas

Aplicação em planejamento de roteiros personalizados

Próximos passos para sistemas de recomendação avançados

Conceitos matemáticos para recomendações precisas

Referências para aprendizado contínuo