Perceptron Multicamadas – MLP/FNN

árvore de ipê rosa
1.1.1 – Regressao
1.1.1.7 – Redes Neurais – Deep Learning
1.1.1.7.1 – Perceptron Multicamadas – MLP/FNN
LEGENDA
Principal
Ramo
Metodo
Problemas
Modelo
Arquitetura

a arquitetura mais fundamental do deep learning

O Perceptron Multicamadas (MLP) é a arquitetura neural mais básica e fundamental do deep learning. Ela consiste em uma camada de entrada, uma ou mais camadas ocultas e uma camada de saída. Cada neurônio de uma camada conecta-se a todos os neurônios da camada seguinte. Por exemplo, para classificar dígitos, a entrada são pixels e a saída são 10 classes. Primeiramente, essa arquitetura totalmente conectada (fully connected) processa informações sequencialmente. Além disso, é também chamada de Rede Neural Feedforward (FNN). MLPs formam a base para arquiteturas mais complexas como CNNs e Transformers.

como os dados fluem pela rede

O fluxo de informações em um MLP ocorre apenas em uma direção: da entrada para a saída. Primeiramente, os dados entram pela camada de entrada, onde cada neurônio representa uma característica. Depois, os valores seguem para a primeira camada oculta através de conexões ponderadas. Cada neurônio oculto soma suas entradas ponderadas e aplica uma função de ativação. Esse processo se repete camada por camada até alcançar a camada de saída. Além disso, não há conexões retroalimentadas ou loops na arquitetura. Esse fluxo unidirecional dá origem ao nome “feedforward” (alimentação para frente).

aprendendo com retropropagação

O treinamento de MLPs utiliza o algoritmo de retropropagação (backpropagation) combinado com gradiente descendente. Primeiramente, fazemos uma passagem forward para calcular a saída da rede. Depois, calculamos o erro comparando a saída com o valor desejado. Além disso, propagamos esse erro de volta pelas camadas, ajustando os pesos. O gradiente indica em que direção modificar cada peso para reduzir o erro. Esse processo repete-se por muitas épocas até o erro convergir. A retropropagação é o algoritmo que permite que redes profundas aprendam.

camadas ocultas e capacidade de representação

As camadas ocultas são responsáveis pela capacidade do MLP de aprender padrões complexos. Primeiramente, camadas ocultas permitem que a rede aprenda representações intermediárias dos dados. Uma única camada oculta pode aproximar qualquer função contínua (teorema da aproximação universal). Além disso, múltiplas camadas ocultas permitem aprender hierarquias de características progressivamente. Por exemplo, em imagens, primeiras camadas detectam bordas, camadas posteriores reconhecem objetos. O número de neurônios por camada controla a capacidade de aprendizado. Mais neurônios aumentam o poder, mas também o risco de sobreajuste.

aplicações e limitações do mlp

MLPs são amplamente utilizados em problemas com dados tabulares estruturados. Primeiramente, sistemas financeiros usam MLPs para previsão de séries temporais e risco. Além disso, problemas de classificação com características bem definidas frequentemente usam MLPs. Na bioinformática, MLPs ajudam a prever estruturas de proteínas e interações. Entretanto, MLPs não capturam padrões espaciais (como imagens) ou sequenciais (como texto) de forma eficiente. Para esses casos, arquiteturas especializadas como CNNs e RNNs são mais adequadas. Para iniciantes, MLPs oferecem a introdução perfeita ao universo do deep learning. É o primeiro passo para entender redes neurais mais avançadas.

Linear Simples ou Univariada

professor de matemática
1.1 – Supervisionado
1.1.1 – Regressao
1.1.1.1 – Linear Simples ou Univariada
LEGENDA
Principal
Ramo
Metodo
Problemas
Modelo
Arquitetura

a relação entre duas variáveis

Regressão linear simples modela a relação entre uma variável independente e uma dependente. A variável independente (x) serve para prever o valor da variável dependente (y). Por exemplo, podemos prever o preço de um imóvel (y) com base na metragem (x). Primeiramente, o algoritmo busca a linha reta que melhor se ajusta aos dados observados. A equação resultante tem forma y = a + bx, onde a é intercepto e b é inclinação. Diferente de modelos complexos, essa abordagem oferece interpretabilidade direta dos resultados. Portanto, regressão linear simples é o ponto de partida natural para quem aprende sobre regressão.

encontrando a linha de melhor ajuste

O método dos mínimos quadrados constitui a técnica padrão para encontrar os coeficientes da reta. Primeiramente, calculamos a diferença entre cada ponto real e o valor previsto pela reta. Depois, elevamos essas diferenças ao quadrado para tratar valores positivos e negativos igualmente. O algoritmo busca os valores de a e b que minimizam essa soma total. Por exemplo, em dados de preço por metragem, a inclinação b representa o preço por metro quadrado. Além disso, o intercepto a representa o valor base quando a metragem é zero. Esse processo matemático garante a reta que melhor representa os dados observados.

interpretando os coeficientes

Os coeficientes da regressão linear simples carregam significados práticos importantes para análise. A inclinação (b) indica quantas unidades y muda para cada unidade de x. Por exemplo, b = 5000 significa que cada metro quadrado adicional aumenta o preço em R$5.000. O intercepto (a) representa o valor de y quando x é igual a zero. Além disso, devemos avaliar se esse valor faz sentido no contexto do problema. Primeiramente, calculamos também o coeficiente de determinação R² para avaliar o ajuste. R² próximo de 1 indica que a variável x explica bem a variação de y. Essa interpretabilidade torna a regressão linear simples valiosa para tomada de decisão.

avaliando a qualidade do modelo

Avaliar um modelo de regressão linear simples exige análise de múltiplas métricas complementares. Primeiramente, o R² indica a proporção da variância de y explicada pela variável x. Valores acima de 0,7 geralmente indicam um bom ajuste aos dados observados. Além disso, analisamos os resíduos (diferenças entre valores reais e previstos). Resíduos devem se distribuir aleatoriamente sem padrões visíveis no gráfico. Adicionalmente, verificamos se os resíduos seguem aproximadamente uma distribuição normal. Outra métrica importante é o erro padrão dos coeficientes estimados. Por fim, a significância estatística dos coeficientes valida se a relação observada não ocorreu por acaso.

aplicações práticas no cotidiano

Regressão linear simples aparece em diversas situações práticas do dia a dia. Primeiramente, imobiliárias usam metragem para estimar preços de apartamentos em uma região. Além disso, varejistas analisam como gastos com publicidade influenciam o volume de vendas. Na agricultura, modelos relacionam quantidade de fertilizante com produtividade das colheitas. Escolas podem estudar a relação entre horas de estudo e notas obtidas pelos alunos. Empresas de transporte correlacionam distância percorrida com custo de combustível. Para iniciantes, este modelo demonstra como uma variável pode prever outra de forma simples. Consequentemente, é a ferramenta fundamental para entender relações causais básicas entre fenômenos.  

Problema: Previsão de Salário com base em Anos de Experiência

Contexto: Uma empresa deseja entender a relação entre os anos de experiência de um funcionário e seu salário anual. Com base nessa relação, eles querem prever o salário de novos candidatos.

Objetivo: Construir um modelo de Regressão Linear que aprenda a relação entre X (Anos de Experiência) e Y (Salário em R$).

O que é Regressão Linear Simples?

É um algoritmo de aprendizado supervisionado que modela a relação entre uma variável independente (X) e uma variável dependente (Y) através de uma linha reta.

Fórmula Matemática: y = β₀ + β₁ * x + ε

Onde:
• y = variável alvo (Salário)
• x = variável preditora (Anos de Experiência)
• β₀ = intercepto (bias)
• β₁ = coeficiente angular (peso)
• ε = erro (residual)
 

🏗️ Arquitetura do Modelo

Estrutura:
Input Layer: 1 neurônio (Anos de Experiência)
Output Layer: 1 neurônio (Salário previsto)
Função de Ativação: Linear (identity)
Camadas Ocultas: Nenhuma (modelo linear simples)
 

⚙️ Hiperparâmetros Principais

📊 fit_intercept (True/False)
Determina se o modelo calcula o intercepto (β₀). Default = True.
📊 normalize (True/False)
Normaliza os dados antes da regressão (depreciado no sklearn 1.0+).
📊 copy_X (True/False)
Se True, cria uma cópia dos dados de entrada.
📊 n_jobs (int ou None)
Número de jobs paralelos para computação (-1 usa todos os processadores).
 

📐 Métricas de Avaliação

  • R² (Coeficiente de Determinação): Mede quanto o modelo explica a variabilidade dos dados (0 a 1).
  • MSE (Erro Quadrático Médio): Penaliza erros grandes.
  • MAE (Erro Absoluto Médio): Mais robusto a outliers.

 

💡 Interpretação

O modelo encontrará uma reta que minimiza a soma dos quadrados dos resíduos (diferença entre valores reais e previstos).

Coeficiente β₁ positivo: relação positiva (mais experiência = maior salário)
Coeficiente β₁ negativo: relação inversa