Histograma

professor apresenta gráfico no quadro

O que é um Histograma?

Um histograma é uma representação gráfica de distribuição de dados numéricos contínuos.
É similar a um gráfico de barras, mas agrupa os dados em intervalos (chamados de “bins” ou “classes”) e mostra a frequência de observações em cada intervalo.

O histograma é muito importante no estudo de variáveis quantitativas principalmente para variáveis contínuas, com ele podemos saber como as variáveis estão distribuídas

Por meio do histograma conseguimos calcular os quantis

Primeiro precisamos definir o número de intervalos a serem considerados, para este caso consideraremos 6 intervalos.
Vamos obter nos dados o valor mínimo e máximo.
amplitude do intervalo = (valor máximo – valor mínimo) ÷ 6
limite inferior = valor mínimo
limite superior = valor máximo
densidade da frequência = frequência relativa ÷ amplitude do intervalo
Abaixo vamos calcular no R e obter a tabela de frequência e histogramas com frequência absoluta e densidade de frequência .

Exemplo prático em R

Resultado

tabela_frequencia
histograma1_frequencia_absoluta
histograma2_densidade_frequencia

INFORMATIVO: Lembre-se no exemplo anterior a AMPLITUDES DOS INTERVALOS ERAM IGUAIS com tamanho 3866.833 km2.
ATENÇÃO: Caso o seu histograma tenha AMPLITUDES DIFERENTES a sua leitura poderá ser distorcida se forem utilizadas as frequências absolutas ou relativas.

Características Principais de um Histograma

Elementos de um Histograma

  • Eixo horizontal (x): Representa os intervalos de valores (classes)
  • Eixo vertical (y): Representa a frequência ou contagem de observações
  • Barras: Mostram a frequência em cada intervalo
  • Largura das barras: Representa a amplitude do intervalo
  • Altura das barras: Representa a frequência no intervalo

Diferenças para Gráfico de Barras

  • No histograma, as barras são adjacentes (não há espaço entre elas)
  • As categorias no eixo x são intervalos numéricos contínuos
  • Usado para dados quantitativos contínuos
  • Mostra a distribuição e forma dos dados

Implementação de Amostragem Estratificada em R

dois grupos de jogadores

Este documento apresenta uma implementação completa de amostragem estratificada em R, utilizando o pacote sampling e demonstrando todo o processo desde a preparação dos dados até a estimação de parâmetros populacionais.

Visão Geral do Código

O código R apresentado realiza uma amostragem estratificada proporcional utilizando a base de dados MU284, que contém informações sobre municípios suecos. O processo inclui:

  1. Limpeza do ambiente de trabalho
  2. Carregamento e preparação dos dados
  3. Cálculo de alocações por estrato
  4. Seleção da amostra
  5. Estimação de parâmetros populacionais

Funções Auxiliares

Função clean_env

Esta função realiza uma limpeza completa do ambiente de trabalho do R:

Funções de Suporte

Funções auxiliares para verificação de números inteiros e arredondamento:

Processo de Amostragem Estratificada

Preparação dos Dados

Cálculo de Alocações e Probabilidades

Alocação Proporcional

O cálculo da alocação proporcional segue a fórmula:

\(n_h = n \times \frac{N_h}{N}\)

Onde:

  • \(n_h\) = tamanho da amostra no estrato h
  • \(n\) = tamanho total da amostra
  • \(N_h\) = tamanho do estrato h na população
  • \(N\) = tamanho total da população

Seleção da Amostra e Estimação

Seleção da Amostra

Estimação com Correção para População Finita

O Fator de Correção para População Finita (FPC) é calculado como:

\(FPC = \frac{N – n}{N}\)

E é aplicado para reduzir o erro padrão das estimativas quando a amostra é uma fração significativa da população.

Considerações Importantes

Vantagens da Amostragem Estratificada

  • Garante representatividade de todos os subgrupos relevantes
  • Pode resultar em estimativas mais precisas
  • Permite análise separada para cada estrato
  • Mais eficiente quando os estratos são homogêneos internamente

Desafios e Considerações

  • Requer conhecimento prévio da população para definir estratos
  • O arredondamento pode alterar ligeiramente o tamanho total da amostra
  • A escolha da variável de estratificação é crucial
  • Pode ser mais complexa de implementar que amostragem aleatória simples

Conclusão

Este código demonstra uma implementação completa de amostragem estratificada em R, desde a preparação do ambiente até a estimação de parâmetros populacionais com correção para população finita. A abordagem apresentada garante que todos os estratos da população estejam adequadamente representados na amostra, resultando em estimativas mais precisas e confiáveis.

O uso do pacote survey permite incorporar o desenho amostral complexo nas estimativas, produzindo erros padrão apropriados e intervalos de confiança válidos para os parâmetros populacionais de interesse.

Referências

  • Lumley, T. (2004). “Analysis of Complex Survey Samples”. Journal of Statistical Software.
  • Cochran, W. G. (1977). “Sampling Techniques”. 3rd ed. John Wiley & Sons.
  • Sarndal, C. E., Swensson, B., & Wretman, J. (1992). “Model Assisted Survey Sampling”. Springer-Verlag.
  • Documentação do pacote sampling: https://cran.r-project.org/web/packages/sampling/
  • Documentação do pacote survey: https://cran.r-project.org/web/packages/survey/

Projeto no GitHub

Amostragem Estratificada em R