Arquivo de ciência-de-dados - Página 2 de 3

Seja X₁, X₂, …, Xₙ uma amostra aleatória com distribuição uniforme U(0, Θ), onde Θ é desconhecido. Definimos o estimador: \(\hat{\Theta}_n = \max(X_1, X_2, …, X_n)\).

Problema

Precisamos encontrar:

O viés do estimador: \(B(\hat{\Theta}_n) = E[\hat{\Theta}_n] – \Theta\)
O erro quadrático médio: \(EQM(\hat{\Theta}_n) = E[(\hat{\Theta}_n – \Theta)^2]\)

Para isso, utilizaremos o fato de que a função densidade de probabilidade de \(\hat{\Theta}_n\) é:

\(f_{\hat{\Theta}_n}(y) = n f_X(y) [F_X(y)]^{n-1}\)

Distribuição do Máximo

Para uma distribuição uniforme U(0, Θ):

\(f_X(x) = \frac{1}{\Theta}\) para \(0 \leq x \leq \Theta\)
\(F_X(x) = \frac{x}{\Theta}\) para \(0 \leq x \leq \Theta\)

Portanto, a densidade do máximo é:

\(f_{\hat{\Theta}_n}(y) = n \cdot \frac{1}{\Theta} \cdot \left(\frac{y}{\Theta}\right)^{n-1} = \frac{n y^{n-1}}{\Theta^n}\)

para \(0 \leq y \leq \Theta\).

Cálculo do Valor Esperado

Para encontrar o viés, primeiro calculamos \(E[\hat{\Theta}_n]\):

\(E[\hat{\Theta}_n] = \int_{0}^{\Theta} y \cdot f_{\hat{\Theta}_n}(y) dy = \int_{0}^{\Theta} y \cdot \frac{n y^{n-1}}{\Theta^n} dy\) \(= \frac{n}{\Theta^n} \int_{0}^{\Theta} y^n dy = \frac{n}{\Theta^n} \cdot \left[\frac{y^{n+1}}{n+1}\right]_{0}^{\Theta}\) \(= \frac{n}{\Theta^n} \cdot \frac{\Theta^{n+1}}{n+1} = \frac{n}{n+1} \Theta\)

Portanto, \(E[\hat{\Theta}_n] = \frac{n}{n+1} \Theta\)

Cálculo do Viés

O viés é dado por:

\(B(\hat{\Theta}_n) = E[\hat{\Theta}_n] – \Theta = \frac{n}{n+1} \Theta – \Theta\) \(= \left(\frac{n}{n+1} – 1\right) \Theta = -\frac{1}{n+1} \Theta\)

O viés do estimador é \(B(\hat{\Theta}_n) = -\frac{\Theta}{n+1}\)

Cálculo do Erro Quadrático Médio

Para calcular o EQM, primeiro precisamos de \(E[\hat{\Theta}_n^2]\):

\(E[\hat{\Theta}_n^2] = \int_{0}^{\Theta} y^2 \cdot f_{\hat{\Theta}_n}(y) dy = \int_{0}^{\Theta} y^2 \cdot \frac{n y^{n-1}}{\Theta^n} dy\) \(= \frac{n}{\Theta^n} \int_{0}^{\Theta} y^{n+1} dy = \frac{n}{\Theta^n} \cdot \left[\frac{y^{n+2}}{n+2}\right]_{0}^{\Theta}\) \(= \frac{n}{\Theta^n} \cdot \frac{\Theta^{n+2}}{n+2} = \frac{n}{n+2} \Theta^2\)

Agora podemos calcular o EQM:

\(EQM(\hat{\Theta}_n) = E[(\hat{\Theta}_n – \Theta)^2] = E[\hat{\Theta}_n^2] – 2\Theta E[\hat{\Theta}_n] + \Theta^2\) \(= \frac{n}{n+2} \Theta^2 – 2\Theta \cdot \frac{n}{n+1} \Theta + \Theta^2\) \(= \left(\frac{n}{n+2} – \frac{2n}{n+1} + 1\right) \Theta^2\)

Após simplificação algébrica, obtemos:

\(EQM(\hat{\Theta}_n) = \frac{2\Theta^2}{(n+1)(n+2)}\)

O erro quadrático médio é \(EQM(\hat{\Theta}_n) = \frac{2\Theta^2}{(n+1)(n+2)}\)

Simulação em R

O código abaixo em R simula este estimador para verificar os resultados teóricos:

# Parâmetros da simulação
theta <- 5       # Valor verdadeiro de Θ
n <- 10          # Tamanho da amostra
num_sim <- 10000 # Número de simulações

# Simulação do estimador
estimativas <- replicate(num_sim, {
  amostra <- runif(n, min = 0, max = theta)
  max(amostra)
})

# Cálculo do viés empírico
vies_empirico <- mean(estimativas) - theta
vies_teorico <- -theta/(n+1)

# Cálculo do EQM empírico
eqm_empirico <- mean((estimativas - theta)^2)
eqm_teorico <- 2*theta^2/((n+1)*(n+2))

# Resultados
cat("Viés teórico:", vies_teorico, "\n")
cat("Viés empírico:", vies_empirico, "\n")
cat("EQM teórico:", eqm_teorico, "\n")
cat("EQM empírico:", eqm_empirico, "\n")

# Visualização da distribuição do estimador
hist(estimativas, breaks = 30, main = "Distribuição do Estimador", 
     xlab = expression(hat(Theta)[n]), col = "lightblue", freq = FALSE)
curve(n*x^(n-1)/theta^n, from = 0, to = theta, add = TRUE, col = "red", lwd = 2)
abline(v = theta, col = "blue", lwd = 2, lty = 2)
legend("topright", legend = c("Distribuição teórica", "Θ verdadeiro"), 
       col = c("red", "blue"), lwd = 2, lty = c(1, 2))

# Parâmetros da simulação

theta <- 5 # Valor verdadeiro de Θ

n <- 10 # Tamanho da amostra

num_sim <- 10000 # Número de simulações

# Simulação do estimador

estimativas <- replicate(num_sim, {

amostra <- runif(n, min = 0, max = theta)

max(amostra)

})

# Cálculo do viés empírico

vies_empirico <- mean(estimativas) - theta

vies_teorico <- -theta/(n+1)

# Cálculo do EQM empírico

eqm_empirico <- mean((estimativas - theta)^2)

eqm_teorico <- 2*theta^2/((n+1)*(n+2))

# Resultados

cat("Viés teórico:", vies_teorico, "\n")

cat("Viés empírico:", vies_empirico, "\n")

cat("EQM teórico:", eqm_teorico, "\n")

cat("EQM empírico:", eqm_empirico, "\n")

# Visualização da distribuição do estimador

hist(estimativas, breaks = 30, main = "Distribuição do Estimador",

xlab = expression(hat(Theta)[n]), col = "lightblue", freq = FALSE)

curve(n*x^(n-1)/theta^n, from = 0, to = theta, add = TRUE, col = "red", lwd = 2)

abline(v = theta, col = "blue", lwd = 2, lty = 2)

legend("topright", legend = c("Distribuição teórica", "Θ verdadeiro"),

col = c("red", "blue"), lwd = 2, lty = c(1, 2))

Conclusões

Para o estimador \(\hat{\Theta}_n = \max(X_1, X_2, …, X_n)\) de uma distribuição uniforme U(0, Θ):

O estimador é viesado: \(B(\hat{\Theta}_n) = -\frac{\Theta}{n+1}\)
O erro quadrático médio é: \(EQM(\hat{\Theta}_n) = \frac{2\Theta^2}{(n+1)(n+2)}\)

Observa-se que tanto o viés absoluto quanto o EQM diminuem à medida que o tamanho da amostra n aumenta, demonstrando que o estimador é assintoticamente não viesado e consistente.

Referências

1. Casella, G., & Berger, R. L. (2002). Statistical Inference. Duxbury.

2. Rice, J. A. (2007). Mathematical Statistics and Data Analysis. Cengage Learning.

3. Hogg, R. V., McKean, J. W., & Craig, A. T. (2019). Introduction to Mathematical Statistics. Pearson.

Objetivo do processo do KDD (Knowledge Discovery in Databases) é a busca pela forma da representação do conhecimento por meio da identificação de padrões (compreensíveis, válidos ao contexto, novos e úteis).
KDD é o processo de descoberta de conhecimentos úteis a partir de dados.

O KDD se divide em:

Pré-processamento – dados brutos ➜ dados transformados
Mineração de dados – dados transformados ➜ escolha de algorítimo e treinamento de máquina ➜ padrões
Pós-processamento – padrões ➜ Interpretação ou Avaliação ➜ conhecimento

PRÉ-PROCESSAMENTO
Seleção	Preparação			Transformação
Coleta e Integração	Codificação	Construção de atributos	Limpeza dos dados	Partição dos dados
salvar os dados em um repositório local (ETL)	Conversões de tipos de dados	Renomear colunas e criar novas colunas	Complementação de dados ausentes, detecção de ruídos e eliminação de dados inconsistentes	Escolha de algorítimo e dividir os dados para treino e teste do treinamento de máquina.

Algorítimos
Associação	Agrupamento	Classificação	Regressão Linear
Correlaciona a ocorrencia de eventos distintos. Exemplo quando um cliente compra leite e farinha também costuma comprar ovos. O que leva o supermecado colocar estes produtos próximos.	Agrupamento é muito utilizado no Marketing para compreender o comportamento de grupos de clientes. O agrupamento é o aprendizado não supervisionado usado para descobrir grupos naturais em dados não rotulados.	Classifica após aprender a identificar padrões de exemplos já classificados. Exemplo clássico seria classificar fotos de gatos e cães.	Regressão Linear estima uma variável a partir de uma função. Um exemplo seria calcular o valor de um imóvel à venda em um bairro, partindo de uma base de dados que tem histórico de uma imobiliária na região.

Saiba mais sobre KDD no post Descoberta de conhecimento e Aprendizado de Máquina

Análise do estimador para distribuição uniforme