Regressão Linear Univariada

Entendendo o Cenário Ideal: A Relação entre Duas Variáveis

A Regressão Linear Univariada representa uma ferramenta fundamental no universo da aprendizagem de máquina. Para qualquer iniciante, saber quando aplicá-la corretamente torna-se o primeiro passo rumo a modelos preditivos eficazes. Em essência, recorremos a esta técnica quando precisamos prever um valor numérico contínuo partindo de uma única característica. A própria palavra “univariada” já revela seu significado: “uma variável”. Dessa forma, o cenário ideal surge quando identificamos uma relação linear entre esses dois elementos, ou seja, quando as mudanças na variável preditora provocam mudanças proporcionais na variável alvo.

O exemplo clássico envolve a relação entre o tamanho de uma casa e seu preço de venda. Intuitivamente, todos sabemos que casas maiores tendem a alcançar preços mais elevados. Neste caso, a variável independente corresponde ao tamanho, enquanto a dependente representa o preço. A regressão, então, encontrará a melhor linha reta para representar essa tendência central. A equação y = mx + b descreve perfeitamente essa linha, onde m indica o coeficiente angular. Podemos citar ainda outros exemplos igualmente didáticos, como prever a pontuação de um aluno a partir de suas horas de estudo. Da mesma forma, estimar o consumo de combustível de um carro considerando sua velocidade média também se encaixa perfeitamente neste contexto.

Os Pressupostos que Garantem a Confiabilidade do Modelo

Precisamos compreender profundamente as condições que tornam a Regressão Linear Univariada uma escolha realmente adequada. Acima de tudo, a existência de uma relação aproximadamente linear entre as variáveis surge como o pressuposto mais importante. Felizmente, podemos verificar essa condição facilmente através de um gráfico de dispersão. Caso os pontos não se organizem em torno de uma linha reta, mas sim formem uma curva, o modelo certamente produzirá previsões imprecisas. Por exemplo, ninguém deveria usar este modelo para prever a aceleração de um foguete baseando-se apenas no tempo, pois essa relação claramente não segue um padrão linear.

Além disso, a independência das observações merece atenção especial. Cada ponto de dado não pode, sob hipótese alguma, influenciar o outro. Medições repetidas da mesma casa ao longo do tempo violariam completamente este princípio. Outro aspecto fundamental envolve a homocedasticidade, que significa manter a variância dos erros constante para todos os valores da variável preditora. Quando observamos a dispersão aumentando progressivamente, o modelo perde sua confiabilidade. Vale ressaltar que a multicolinearidade não se aplica aqui, pois trabalhamos com apenas uma variável preditora, o que naturalmente torna a validação mais simples e direta.

A Força da Simplicidade: Quando Começar por Aqui

A simplicidade característica da Regressão Linear Univariada representa simultaneamente sua maior força e sua principal limitação. Portanto, devemos utilizá-la quando a realidade se mostra verdadeiramente simples e depende de um único fator determinante. Este modelo funciona admiravelmente bem como ponto de partida em qualquer projeto analítico. Mesmo quando almejamos construir modelos complexos posteriormente, começar com uma análise univariada revela-se extremamente recomendável. Através dela, obtemos insights valiosos sobre a direção e a intensidade do relacionamento entre os dados estudados.

Esta abordagem inicial certamente ajuda a orientar a construção de modelos mais sofisticados no futuro. Padrões importantes emergem naturalmente durante esta fase exploratória, podendo ser explorados com maior profundidade nas etapas seguintes. Ignorar os pressupostos fundamentais, por outro lado, pode nos levar a conclusões completamente equivocadas. Por isso, entender profundamente o “quando usar” mostra-se tão crucial quanto dominar o “como usar”. A interpretabilidade figura como uma vantagem notável oferecida por este modelo. Consequentemente, explicar como uma variável influencia diretamente o resultado final torna-se uma tarefa simples e intuitiva, característica especialmente valiosa em contextos de negócios e processos decisórios baseados em dados.

Carregando o conjunto de dados

import pandas as pd
# dataset: https://www.kaggle.com/datasets/tmcketterick/heights-and-weights
df = pd.read_csv('/content/regressao-linear-univariada.csv')
"""
Exibindo amostra aleatória de 5 linhas para visualização inicial
"""
df.sample(5)

import pandas as pd

# dataset: https://www.kaggle.com/datasets/tmcketterick/heights-and-weights

df = pd.read_csv('/content/regressao-linear-univariada.csv')

"""

Exibindo amostra aleatória de 5 linhas para visualização inicial

"""

df.sample(5)

Verificando os tipos de dados das colunas

df.dtypes

df.dtypes

Analisando a estrutura do dataset (número de linhas e colunas)

df.shape

df.shape

Estatísticas descritivas básicas do dataset

df.describe()

1	df.describe()

Gráfico 01

import matplotlib.pyplot as plt
fig, ax = plt.subplots(figsize=(12,8))
plt.scatter(df['Height'],df['Weight'])
plt.xlabel('Height')
plt.ylabel('Weight')

import matplotlib.pyplot as plt

fig, ax = plt.subplots(figsize=(12,8))

plt.scatter(df['Height'],df['Weight'])

plt.xlabel('Height')

plt.ylabel('Weight')

Separação em TREINO e TESTE

"""
Executamos train_test_split para dividir o conjunto de dados em dois conjuntos,
variáveis independentes (X) e dependentes (Y).
"""
from sklearn.model_selection import train_test_split

X = df[['Weight']]
Y = df['Height']

"""
Especificamos test_size=0.4, isto é, o conjunto de teste será criado com 40% do conjunto de dados,
ficando os 60% restantes para o conjunto de treinamento.
"""
x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size=0.4)

"""

Executamos train_test_split para dividir o conjunto de dados em dois conjuntos,

variáveis independentes (X) e dependentes (Y).

"""

from sklearn.model_selection import train_test_split

X = df[['Weight']]

Y = df['Height']

"""

Especificamos test_size=0.4, isto é, o conjunto de teste será criado com 40% do conjunto de dados,

ficando os 60% restantes para o conjunto de treinamento.

"""

x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size=0.4)

Exibindo os parâmetros do modelo treinado

from matplotlib.colors import Normalize
from sklearn.linear_model import LinearRegression
linear_model = LinearRegression().fit(x_train, y_train)
print("Modelo Linear Simples: Intercept = {:.5}".format(linear_model.intercept_))
print("Modelo Linear Simples: Coefficient = {:.5}".format(linear_model.coef_[0]))
print("Modelo Linear Simples: Weight = {:.5} + {:.5}(Height)".format(linear_model.intercept_, linear_model.coef_[0]))

from matplotlib.colors import Normalize

from sklearn.linear_model import LinearRegression

linear_model = LinearRegression().fit(x_train, y_train)

print("Modelo Linear Simples: Intercept = {:.5}".format(linear_model.intercept_))

print("Modelo Linear Simples: Coefficient = {:.5}".format(linear_model.coef_[0]))

print("Modelo Linear Simples: Weight = {:.5} + {:.5}(Height)".format(linear_model.intercept_, linear_model.coef_[0]))

Teste

"""
Treinamento do modelo linear.
"""
print('Train score:',linear_model.score(x_train,y_train))

y_pred = linear_model.predict(x_test)
from sklearn.metrics import r2_score
"""
Teste e avaliação do modelo linear.
"""
print('Test score:',r2_score(y_test,y_pred))

"""

Treinamento do modelo linear.

"""

print('Train score:',linear_model.score(x_train,y_train))

y_pred = linear_model.predict(x_test)

from sklearn.metrics import r2_score

"""

Teste e avaliação do modelo linear.

"""

print('Test score:',r2_score(y_test,y_pred))

Grafico 02

fig, ax = plt.subplots(figsize=(12,8))

plt.scatter(x_test, y_test)
plt.plot(x_test, y_pred, color='red')
plt.xlabel('Height')
plt.ylabel('Weight')
"""
Gráfico do modelo linear e conjunto de teste.
"""
plt.show()

fig, ax = plt.subplots(figsize=(12,8))

plt.scatter(x_test, y_test)

plt.plot(x_test, y_pred, color='red')

plt.xlabel('Height')

plt.ylabel('Weight')

"""

Gráfico do modelo linear e conjunto de teste.

"""

plt.show()

Avaliação

from sklearn.linear_model import LinearRegression
linear_model = LinearRegression().fit(x_train, y_train)
print("Modelo Linear Simples: Intercept = {:.5}".format(linear_model.intercept_))
print("Modelo Linear Simples: Coefficient = {:.5}".format(linear_model.coef_[0]))
print("Modelo Linear Simples: Weight = {:.5} + {:.5}(Height)".format(linear_model.intercept_, linear_model.coef_[0]))

"""
Treinamento do modelo linear com o novo conjunto.
"""
print('Training score: ', linear_model.score(x_train,y_train))

from sklearn.linear_model import LinearRegression

linear_model = LinearRegression().fit(x_train, y_train)

print("Modelo Linear Simples: Intercept = {:.5}".format(linear_model.intercept_))

print("Modelo Linear Simples: Coefficient = {:.5}".format(linear_model.coef_[0]))

print("Modelo Linear Simples: Weight = {:.5} + {:.5}(Height)".format(linear_model.intercept_, linear_model.coef_[0]))

"""

Treinamento do modelo linear com o novo conjunto.

"""

print('Training score: ', linear_model.score(x_train,y_train))

Realizando previsões no conjunto de teste

y_pred = linear_model.predict(x_test)
from sklearn.metrics import r2_score
"""
Avaliação do novo modelo.
Comparação entre valores reais e previsões do modelo
Medida de quão bem o modelo generaliza para dados não vistos
"""
print('Score no conjunto de teste (R²):', r2_score(y_test,y_pred))

y_pred = linear_model.predict(x_test)

from sklearn.metrics import r2_score

"""

Avaliação do novo modelo.

Comparação entre valores reais e previsões do modelo

Medida de quão bem o modelo generaliza para dados não vistos

"""

print('Score no conjunto de teste (R²):', r2_score(y_test,y_pred))

Visualização dos resultados

fig, ax = plt.subplots(figsize=(12,8))

plt.scatter(x_test, y_test)
plt.plot(x_test, y_pred, color='r')

plt.xlabel('Height')
plt.ylabel('Weight')
plt.show()

fig, ax = plt.subplots(figsize=(12,8))

plt.scatter(x_test, y_test)

plt.plot(x_test, y_pred, color='r')

plt.xlabel('Height')

plt.ylabel('Weight')

plt.show()

Você já parou para pensar como empresas como Netflix sabem exatamente qual filme recomendar, ou como o mercado ajusta os preços dos produtos em tempo real? A resposta para essas perguntas está em um processo fascinante chamado Business Intelligence (BI), ou Inteligência de Negócio. Para quem está começando, o BI pode parecer um conceito abstrato e complexo, repleto de jargões tecnológicos. No entanto, podemos visualizá-lo de forma muito clara como uma escada, onde cada degrau representa um estágio de evolução: partimos do caos dos dados crus e chegamos ao topo, que é a sabedoria para tomar a melhor decisão.

Para ilustrar essa jornada de forma didática, utilizaremos um diagrama de fluxo simples (semelhante a uma UML). Dessa maneira, detalharemos as etapas fundamentais para que a informação se transforme em ação. Vamos percorrer, passo a passo, esse caminho, entendendo o que acontece em cada fase e onde entram em cena ferramentas poderosas como a Estatística, a Classificação de dados e o Aprendizado de Máquina (Machine Learning).

$PlantUML Syntax: @startuml title Business Inteligence \n start :1 – Dados; note left *Materia-prima bruta *Numeros soltos *Registros de vendas *Cliques e cadastros end note :processamento; :2 – Informacao; note left Elaboracao *Contexto e organizacao *Estatistica Descritiva *Medias, somatorios *Pergunta-se: O que aconteceu? end note :analise; :3 – Conhecimento; note left Aprendizado *Analise e descoberta *Machine Learning *Classificacao de padroes *Estatistica Inferencial *Pergunta-se: Por que aconteceu? end note :sintese; :4 – Inteligencia; note left Aplicacao *Sintese e apresentacao *Dashboards interativos *Machine Learning Preditivo *Simulacao de cenarios *Pergunta-se: O que fazer? end note :persitencia; :5 – Experiencia; note left *Acumulo e aprendizado *Memoria institucional *Ciclos de realimentacao *Cultura Data Driven end note stop @enduml $

1 – A Matéria-Prima – Os Dados

A jornada começa com os dados advindos das operações transacionais das operações da empresa. Em outras palavras, pense nos dados como a matéria-prima bruta, o petróleo antes de refiná-lo. São números soltos, textos, registros de vendas, cliques em um site, datas, cadastros de clientes. Sozinhos, eles não contam uma história e podem até confundir. Por exemplo, saber que “vendemos 150 unidades” é apenas um dado. Ele representa o alicerce de tudo, mas ainda não oferece significado prático para o gestor.

2 – O Refinamento – A Informação

O próximo degrau é a Informação. Aqui, aplicamos o primeiro filtro: o processamento. Nós organizamos os dados, limpamos (removendo duplicatas ou erros) e os contextualizamos. Além disso, a Estatística Descritiva entra em ação nessa fase. Utilizamos médias, medianas, somatórios e porcentagens para dar sentido ao caos inicial.
Agora, aquele dado “150 unidades” ganha um contexto mais rico: “Vendemos 150 unidades do Produto X na região Sul durante o mês de janeiro.” Portanto, já temos uma informação clara e objetiva. Ela responde à pergunta “O que aconteceu?”.

3 – A Descoberta – O Conhecimento

Com a informação em mãos, subimos para o estágio do Conhecimento. Este constitui o coração da análise. Aqui não basta saber o que aconteceu; precisamos entender por que isso aconteceu. Trata-se da fase da análise e elaboração de hipóteses.

$PlantUML Syntax: @startmindmap title Evolucao da informacao ao longo do tempo \n * Business Inteligence \n *Como alinhar a empresa em torno do cliente \n *Como integrar as descobertas a cada interacao do cliente ? ** Mediacao *** Query e reporting\n*Quantos clientes nos perdemos ? *** OLAP \n *Em quais cidades eles moram ? ** Predicao *** Data Mining \n *Quais tipos de clientes possuem risco de deixar a empresa ? *** Real-Time distribution \n *O que devo oferecer ao meu cliente hoje ? @endmindmap $

É neste degrau que a estatística se aprofunda, deixando de ser apenas descritiva para se tornar inferencial. Além disso, o Aprendizado de Máquina (Machine Learning) começa a brilhar. Utilizamos técnicas para encontrar padrões, correlações e tendências que o olho humano não conseguiria perceber sozinho.
Aplicamos aqui a Classificação. Por exemplo, o sistema pode classificar um cliente como “propenso a comprar” ou “propenso a cancelar” com base no histórico de informações. Do mesmo modo, usamos Machine Learning para responder: “Que fatores levaram ao aumento das vendas em janeiro?” ou “Qual é a tendência de vendas para o próximo mês?”. Em suma, o conhecimento responde à pergunta “Por que isso aconteceu?”.

4 – A Visão Estratégica – A Inteligência

Se o conhecimento representa o entendimento, a Inteligência representa a capacidade de agir com base nesse entendimento. Esta fase envolve a síntese e a apresentação. Ou seja, constitui a materialização do BI propriamente dito. Toda a análise realizada anteriormente se sintetiza em dashboards interativos, relatórios dinâmicos e scorecards.
Aqui, o Aprendizado de Máquina se utiliza de forma mais preditiva e prescritiva. Algoritmos avançados podem simular cenários e sugerir a melhor ação. Por exemplo, a inteligência pode indicar: “Para aumentar as vendas, devemos focar no Produto X e oferecer um desconto de 10% para clientes da região Sul, pois a análise mostra que esse perfil responde bem a esse estímulo.” Assim, a inteligência responde à pergunta “O que fazer?”.

5 – O Acúmulo – A Experiência

A Experiência surge quando aplicamos a inteligência repetidamente. Cada ciclo de decisão gera um novo resultado, que realimenta o sistema. Consequentemente, a empresa aprende com os acertos e erros. A persistência e a aplicação contínua da inteligência criam uma memória institucional. Com o tempo, a organização não apenas reage ao mercado, mas antecipa movimentos, pois acumulou know-how. Ela representa o “saber fazer” que se transforma em cultura.

6 – O Objetivo Final – A Tomada de Decisão

Finalmente, chegamos ao topo da escada: a Tomada de Decisão para o Negócio. Este constitui o objetivo final de todo o processo de Business Intelligence. Todo o caminho percorrido, da coleta do dado, à geração de experiência; existe unicamente para dar suporte a uma única ação: decidir. A decisão pode envolver lançar um novo produto, cortar custos, entrar em um novo mercado ou até demitir um funcionário.
Quando a decisão se baseia em um processo sólido de BI, ela deixa de representar um “chute” ou uma intuição vaga e se torna uma decisão orientada por dados (Data Driven). O gestor não aposta; ele age com a convicção de quem possui a informação tratada, o conhecimento analisado e a inteligência aplicada a seu favor.

Conclusão

Portanto, o Business Intelligence representa muito mais do que um software ou um departamento de TI. Ele constitui uma filosofia de gestão que transforma a empresa em um organismo vivo e inteligente. Começando pelos dados brutos e passando pelos filtros da estatística, classificação e aprendizado de máquina, as organizações conseguem não apenas enxergar o passado, mas entender o presente e planejar o futuro com muito mais segurança. Por fim, para o iniciante, a principal lição permanece: dados constituem o recurso, mas a verdadeira inteligência reside na capacidade de interpretá-los e agir com base neles.