Análise do estimador para distribuição uniforme

Seja X₁, X₂, …, Xₙ uma amostra aleatória com distribuição uniforme U(0, Θ), onde Θ é desconhecido. Definimos o estimador: \(\hat{\Theta}_n = \max(X_1, X_2, …, X_n)\).

Problema

Precisamos encontrar:

  1. O viés do estimador: \(B(\hat{\Theta}_n) = E[\hat{\Theta}_n] – \Theta\)
  2. O erro quadrático médio: \(EQM(\hat{\Theta}_n) = E[(\hat{\Theta}_n – \Theta)^2]\)

Para isso, utilizaremos o fato de que a função densidade de probabilidade de \(\hat{\Theta}_n\) é:

\(f_{\hat{\Theta}_n}(y) = n f_X(y) [F_X(y)]^{n-1}\)

Distribuição do Máximo

Para uma distribuição uniforme U(0, Θ):

  • \(f_X(x) = \frac{1}{\Theta}\) para \(0 \leq x \leq \Theta\)
  • \(F_X(x) = \frac{x}{\Theta}\) para \(0 \leq x \leq \Theta\)

Portanto, a densidade do máximo é:

\(f_{\hat{\Theta}_n}(y) = n \cdot \frac{1}{\Theta} \cdot \left(\frac{y}{\Theta}\right)^{n-1} = \frac{n y^{n-1}}{\Theta^n}\)

para \(0 \leq y \leq \Theta\).

Cálculo do Valor Esperado

Para encontrar o viés, primeiro calculamos \(E[\hat{\Theta}_n]\):

\(E[\hat{\Theta}_n] = \int_{0}^{\Theta} y \cdot f_{\hat{\Theta}_n}(y) dy = \int_{0}^{\Theta} y \cdot \frac{n y^{n-1}}{\Theta^n} dy\) \(= \frac{n}{\Theta^n} \int_{0}^{\Theta} y^n dy = \frac{n}{\Theta^n} \cdot \left[\frac{y^{n+1}}{n+1}\right]_{0}^{\Theta}\) \(= \frac{n}{\Theta^n} \cdot \frac{\Theta^{n+1}}{n+1} = \frac{n}{n+1} \Theta\)

Portanto, \(E[\hat{\Theta}_n] = \frac{n}{n+1} \Theta\)

Cálculo do Viés

O viés é dado por:

\(B(\hat{\Theta}_n) = E[\hat{\Theta}_n] – \Theta = \frac{n}{n+1} \Theta – \Theta\) \(= \left(\frac{n}{n+1} – 1\right) \Theta = -\frac{1}{n+1} \Theta\)

O viés do estimador é \(B(\hat{\Theta}_n) = -\frac{\Theta}{n+1}\)

Cálculo do Erro Quadrático Médio

Para calcular o EQM, primeiro precisamos de \(E[\hat{\Theta}_n^2]\):

\(E[\hat{\Theta}_n^2] = \int_{0}^{\Theta} y^2 \cdot f_{\hat{\Theta}_n}(y) dy = \int_{0}^{\Theta} y^2 \cdot \frac{n y^{n-1}}{\Theta^n} dy\) \(= \frac{n}{\Theta^n} \int_{0}^{\Theta} y^{n+1} dy = \frac{n}{\Theta^n} \cdot \left[\frac{y^{n+2}}{n+2}\right]_{0}^{\Theta}\) \(= \frac{n}{\Theta^n} \cdot \frac{\Theta^{n+2}}{n+2} = \frac{n}{n+2} \Theta^2\)

Agora podemos calcular o EQM:

\(EQM(\hat{\Theta}_n) = E[(\hat{\Theta}_n – \Theta)^2] = E[\hat{\Theta}_n^2] – 2\Theta E[\hat{\Theta}_n] + \Theta^2\) \(= \frac{n}{n+2} \Theta^2 – 2\Theta \cdot \frac{n}{n+1} \Theta + \Theta^2\) \(= \left(\frac{n}{n+2} – \frac{2n}{n+1} + 1\right) \Theta^2\)

Após simplificação algébrica, obtemos:

\(EQM(\hat{\Theta}_n) = \frac{2\Theta^2}{(n+1)(n+2)}\)

O erro quadrático médio é \(EQM(\hat{\Theta}_n) = \frac{2\Theta^2}{(n+1)(n+2)}\)

Simulação em R

O código abaixo em R simula este estimador para verificar os resultados teóricos:

Conclusões

Para o estimador \(\hat{\Theta}_n = \max(X_1, X_2, …, X_n)\) de uma distribuição uniforme U(0, Θ):

  1. O estimador é viesado: \(B(\hat{\Theta}_n) = -\frac{\Theta}{n+1}\)
  2. O erro quadrático médio é: \(EQM(\hat{\Theta}_n) = \frac{2\Theta^2}{(n+1)(n+2)}\)

Observa-se que tanto o viés absoluto quanto o EQM diminuem à medida que o tamanho da amostra n aumenta, demonstrando que o estimador é assintoticamente não viesado e consistente.

Referências

1. Casella, G., & Berger, R. L. (2002). Statistical Inference. Duxbury.

2. Rice, J. A. (2007). Mathematical Statistics and Data Analysis. Cengage Learning.

3. Hogg, R. V., McKean, J. W., & Craig, A. T. (2019). Introduction to Mathematical Statistics. Pearson.

Etapas do KDD

minerador

 

Objetivo do processo do KDD (Knowledge Discovery in Databases) é a busca pela forma da representação do conhecimento por meio da identificação de padrões (compreensíveis, válidos ao contexto, novos e úteis).
KDD é o processo de descoberta de conhecimentos úteis a partir de dados.

O KDD se divide em:

  1. Pré-processamento – dados brutos ➜ dados transformados
  2. Mineração de dados – dados transformados ➜ escolha de algorítimo e treinamento de máquina ➜ padrões
  3. Pós-processamento – padrões ➜ Interpretação ou Avaliação ➜ conhecimento

 

PRÉ-PROCESSAMENTO

Seleção Preparação Transformação
Coleta e Integração Codificação Construção de atributos Limpeza dos dados Partição dos dados
salvar os dados em um repositório local (ETL) Conversões de tipos de dados Renomear colunas e criar novas colunas Complementação de dados ausentes, detecção de ruídos e eliminação de dados inconsistentes Escolha de algorítimo e dividir os dados para treino e teste do treinamento de máquina.

 

 

Algorítimos

Associação Agrupamento Classificação Regressão Linear
Correlaciona a ocorrencia de eventos distintos. Exemplo quando um cliente compra leite e farinha também costuma comprar ovos. O que leva o supermecado colocar estes produtos próximos. Agrupamento é muito utilizado no Marketing para compreender o comportamento de grupos de clientes. O agrupamento é o aprendizado não supervisionado usado para descobrir grupos naturais em dados não rotulados. Classifica após aprender a identificar padrões de exemplos já classificados. Exemplo clássico seria classificar fotos de gatos e cães. Regressão Linear estima uma variável a partir de uma função. Um exemplo seria calcular o valor de um imóvel à venda em um bairro, partindo de uma base de dados que tem histórico de uma imobiliária na região.

 

Saiba mais sobre KDD no post Descoberta de conhecimento e Aprendizado de Máquina