Histograma

19/12/202530/08/2025 Por antonino

O que é um Histograma?

Um histograma é uma representação gráfica de distribuição de dados numéricos contínuos.
É similar a um gráfico de barras, mas agrupa os dados em intervalos (chamados de “bins” ou “classes”) e mostra a frequência de observações em cada intervalo.

O histograma é muito importante no estudo de variáveis quantitativas principalmente para variáveis contínuas, com ele podemos saber como as variáveis estão distribuídas

Por meio do histograma conseguimos calcular os quantis

Primeiro precisamos definir o número de intervalos a serem considerados, para este caso consideraremos 6 intervalos.
Vamos obter nos dados o valor mínimo e máximo.
amplitude do intervalo = (valor máximo – valor mínimo) ÷ 6
limite inferior = valor mínimo
limite superior = valor máximo
densidade da frequência = frequência relativa ÷ amplitude do intervalo
Abaixo vamos calcular no R e obter a tabela de frequência e histogramas com frequência absoluta e densidade de frequência .

Exemplo prático em R

# Linguagem : R

#========================================
#          CRIAR DIRETÓRIO PARA SALVAR
#========================================
# Definir o diretório de destino
diretorio <- "C:/graficos"

# Criar o diretório se não existir
if (!dir.exists(diretorio)) {
  dir.create(diretorio, recursive = TRUE)
  cat("\nDiretório criado:", diretorio, "\n")
}

x <- c(27772, 19014, 14286, 11651, 12911, 7464, 7000, 6418, 4571,5891,5012, 6207, 7893, 6947, 7536, 10129)
cat("valor mínimo = ",min(x))
cat("valor máximo = ",max(x))
cat("tamanho do intervalo = (", max(x), " - ", min(x), ") ÷ 6 = ", (max(x) - min(x))/6, "Km2")
aux = min(x) + (max(x) - min(x)) * (0:6)/6



#========================================
#          TABELA DE FREQUÊNCIAS (COM FORMATAÇÃO BRASILEIRA)
#========================================
# Criar breaks arredondados
aux_rounded <- round(aux, 1)

# Criar intervalos formatados no estilo brasileiro
intervalos <- character()
for(i in 1:(length(aux_rounded)-1)) {
  inicio <- format(aux_rounded[i], nsmall = 1, big.mark = ".", decimal.mark = ",")
  fim <- format(aux_rounded[i+1], nsmall = 1, big.mark = ".", decimal.mark = ",")
  intervalos[i] <- paste0("de ", inicio, " a ", fim)
}

# Contar frequências manualmente
frequencias <- numeric()
for(i in 1:(length(aux_rounded)-1)) {
  if(i == 1) {
    frequencias[i] <- sum(x >= aux_rounded[i] & x <= aux_rounded[i+1])
  } else {
    frequencias[i] <- sum(x > aux_rounded[i] & x <= aux_rounded[i+1])
  }
}

# Criar dataframe manualmente
freq_df <- data.frame(
  `CLASSE (KM²)` = intervalos,
  `FREQUÊNCIA ABSOLUTA` = frequencias,
  `FREQUÊNCIA RELATIVA` = paste0(round(frequencias / length(x) * 100, 2), "%"),
  check.names = FALSE
)

# Imprimir a tabela de frequências
cat("\n=== TABELA DE FREQUÊNCIAS ===\n")
print(freq_df, row.names = FALSE)

#========================================
#          SALVAR TABELA COMO IMAGEM PNG
#========================================
if(!require(gridExtra)) install.packages("gridExtra")
if(!require(ggplot2)) install.packages("ggplot2")
library(gridExtra)
library(ggplot2)

# Salvar a tabela como PNG
png("C:/graficos/tabela_frequencia.png", 
    width = 1200,  
    height = 400,   
    res = 100)

# Criar tabela formatada
grid.table(freq_df, 
           rows = NULL,
           theme = ttheme_minimal(
             base_size = 10,
             padding = unit(c(4, 4), "mm"),
             core = list(
               bg_params = list(fill = c("#F7F7F7", "#FFFFFF"), col = "black"),
               fg_params = list(hjust = 0, x = 0.03)
             ),
             colhead = list(
               bg_params = list(fill = "#0E4C3E", col = "black"),
               ffg_params = list(col = "white", fontface = "bold")
             )
           ))

dev.off()
cat("Tabela de frequência salva como: C:/graficos/tabela_frequencia.png\n")



#========================================
#          HISTOGRAMA 1 (Frequência Absoluta)
#========================================
# x      = Os dados numéricos para construir o histograma
# breaks = Define os intervalos (bins) do histograma
# right  = Controla como os intervalos são fechados se
#          TRUE: Intervalos são fechados à direita (a, b]
#          FALSE: Intervalos são fechados à esquerda [a, b)
# ylab   = Rótulo do eixo Y (vertical)
# main   = Título principal do gráfico
# xlab   = Rótulo do eixo X (horizontal)
# col    = Cor das barras do histograma
# ylim   = Limites do eixo Y (de 0 a 12)
# axes   = Suprime a criação automática dos eixos
# xlim   = Limites do eixo X (de 0 a 30.000 km²)

# Salvar o histograma 1 como PNG
png(file.path(diretorio, "histograma1_frequencia_absoluta.png"), width = 800, height = 600)

d = hist(x, 
         breaks = aux,
         right  = T,
         ylab   = "FREQUÊNCIA ABSOLUTA", 
         main   = "DESMATAMENTO EM KM2", 
         xlab   = "KM2", col="#0E4C3E",
         ylim   = c(0,12), 
         axes   = F, 
         xlim   = c(0,30000))

axis(1, c(0,aux),round(c(0,aux),1))
axis(2)
text(d$mids, d$counts+0.5, paste(round(d$density*(max(x) - min(x))/6*100,2),"%", sep=""))

dev.off()  # Fechar o dispositivo gráfico
cat("Histograma 1 salvo como: histograma1_frequencia_absoluta.png\n")

#========================================
#          HISTOGRAMA 2 (Densidade de Frequência)
#========================================
# Salvar o histograma 2 como PNG
png(file.path(diretorio, "histograma2_densidade_frequencia.png"), width = 800, height = 600)

d = hist(x, breaks=aux, right=T, prob=T, 
         ylab="DENSIDADE DE FREQUÊNCIA",
         main="DESMATAMENTO EM KM2", 
         xlab="KM2", col="#0E4C3E",
         ylim=c(0,0.0002), axes=F, xlim=c(0,30000))
axis(1, c(0,aux), round(c(0,aux),1))
axis(2)
text(d$mids, d$density+0.5e-5, paste(round(d$density*(max(x) - min(x))/6*100,2),"%", sep=""))

dev.off()  # Fechar o dispositivo gráfico
cat("Histograma 2 salvo como: histograma2_densidade_frequencia.png\n")

#========================================
#          MOSTRAR HISTOGRAMAS NA TELA TAMBÉM
#========================================
# Mostrar o histograma 1 na tela
d = hist(x, 
         breaks = aux,
         right  = T,
         ylab   = "FREQUÊNCIA ABSOLUTA", 
         main   = "DESMATAMENTO EM KM2", 
         xlab   = "KM2", col="#0E4C3E",
         ylim   = c(0,12), 
         axes   = F, 
         xlim   = c(0,30000))

axis(1, c(0,aux),round(c(0,aux),1))
axis(2)
text(d$mids, d$counts+0.5, paste(round(d$density*(max(x) - min(x))/6*100,2),"%", sep=""))

# ----------------------- 
# RESULTADO 
# -----------------------
# valor mínimo =  4571
# valor máximo =  27772
# amplitude do intervalo = ( 27772  -  4571 ) ÷ 6 =  3866.833 Km2
# histograma1_frequencia_absoluta.png
# histograma2_densidade_frequencia.png
# tabela_frequencia.png

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151

152

153

154

155

156

157

158

159

160

161

162

163

164

165

166

167

168

169

170

171

172

173

174

# Linguagem : R

#========================================

# CRIAR DIRETÓRIO PARA SALVAR

#========================================

# Definir o diretório de destino

diretorio <- "C:/graficos"

# Criar o diretório se não existir

if (!dir.exists(diretorio)) {

dir.create(diretorio, recursive = TRUE)

cat("\nDiretório criado:", diretorio, "\n")

}

x <- c(27772, 19014, 14286, 11651, 12911, 7464, 7000, 6418, 4571,5891,5012, 6207, 7893, 6947, 7536, 10129)

cat("valor mínimo = ",min(x))

cat("valor máximo = ",max(x))

cat("tamanho do intervalo = (", max(x), " - ", min(x), ") ÷ 6 = ", (max(x) - min(x))/6, "Km2")

aux = min(x) + (max(x) - min(x)) * (0:6)/6

#========================================

# TABELA DE FREQUÊNCIAS (COM FORMATAÇÃO BRASILEIRA)

#========================================

# Criar breaks arredondados

aux_rounded <- round(aux, 1)

# Criar intervalos formatados no estilo brasileiro

intervalos <- character()

for(i in 1:(length(aux_rounded)-1)) {

inicio <- format(aux_rounded[i], nsmall = 1, big.mark = ".", decimal.mark = ",")

fim <- format(aux_rounded[i+1], nsmall = 1, big.mark = ".", decimal.mark = ",")

intervalos[i] <- paste0("de ", inicio, " a ", fim)

}

# Contar frequências manualmente

frequencias <- numeric()

for(i in 1:(length(aux_rounded)-1)) {

if(i == 1) {

frequencias[i] <- sum(x >= aux_rounded[i] & x <= aux_rounded[i+1])

} else {

frequencias[i] <- sum(x > aux_rounded[i] & x <= aux_rounded[i+1])

}

# Criar dataframe manualmente

freq_df <- data.frame(

`CLASSE (KM²)` = intervalos,

`FREQUÊNCIA ABSOLUTA` = frequencias,

`FREQUÊNCIA RELATIVA` = paste0(round(frequencias / length(x) * 100, 2), "%"),

check.names = FALSE

)

# Imprimir a tabela de frequências

cat("\n=== TABELA DE FREQUÊNCIAS ===\n")

print(freq_df, row.names = FALSE)

#========================================

# SALVAR TABELA COMO IMAGEM PNG

#========================================

if(!require(gridExtra)) install.packages("gridExtra")

if(!require(ggplot2)) install.packages("ggplot2")

library(gridExtra)

library(ggplot2)

# Salvar a tabela como PNG

png("C:/graficos/tabela_frequencia.png",

width = 1200,

height = 400,

res = 100)

# Criar tabela formatada

grid.table(freq_df,

rows = NULL,

theme = ttheme_minimal(

base_size = 10,

padding = unit(c(4, 4), "mm"),

core = list(

bg_params = list(fill = c("#F7F7F7", "#FFFFFF"), col = "black"),

fg_params = list(hjust = 0, x = 0.03)

colhead = list(

bg_params = list(fill = "#0E4C3E", col = "black"),

ffg_params = list(col = "white", fontface = "bold")

)

))

dev.off()

cat("Tabela de frequência salva como: C:/graficos/tabela_frequencia.png\n")

#========================================

# HISTOGRAMA 1 (Frequência Absoluta)

#========================================

# x = Os dados numéricos para construir o histograma

# breaks = Define os intervalos (bins) do histograma

# right = Controla como os intervalos são fechados se

# TRUE: Intervalos são fechados à direita (a, b]

# FALSE: Intervalos são fechados à esquerda [a, b)

# ylab = Rótulo do eixo Y (vertical)

# main = Título principal do gráfico

# xlab = Rótulo do eixo X (horizontal)

# col = Cor das barras do histograma

# ylim = Limites do eixo Y (de 0 a 12)

# axes = Suprime a criação automática dos eixos

# xlim = Limites do eixo X (de 0 a 30.000 km²)

# Salvar o histograma 1 como PNG

png(file.path(diretorio, "histograma1_frequencia_absoluta.png"), width = 800, height = 600)

d = hist(x,

breaks = aux,

right = T,

ylab = "FREQUÊNCIA ABSOLUTA",

main = "DESMATAMENTO EM KM2",

xlab = "KM2", col="#0E4C3E",

ylim = c(0,12),

axes = F,

xlim = c(0,30000))

axis(1, c(0,aux),round(c(0,aux),1))

axis(2)

text(d$mids, d$counts+0.5, paste(round(d$density*(max(x) - min(x))/6*100,2),"%", sep=""))

dev.off() # Fechar o dispositivo gráfico

cat("Histograma 1 salvo como: histograma1_frequencia_absoluta.png\n")

#========================================

# HISTOGRAMA 2 (Densidade de Frequência)

#========================================

# Salvar o histograma 2 como PNG

png(file.path(diretorio, "histograma2_densidade_frequencia.png"), width = 800, height = 600)

d = hist(x, breaks=aux, right=T, prob=T,

ylab="DENSIDADE DE FREQUÊNCIA",

main="DESMATAMENTO EM KM2",

xlab="KM2", col="#0E4C3E",

ylim=c(0,0.0002), axes=F, xlim=c(0,30000))

axis(1, c(0,aux), round(c(0,aux),1))

axis(2)

text(d$mids, d$density+0.5e-5, paste(round(d$density*(max(x) - min(x))/6*100,2),"%", sep=""))

dev.off() # Fechar o dispositivo gráfico

cat("Histograma 2 salvo como: histograma2_densidade_frequencia.png\n")

#========================================

# MOSTRAR HISTOGRAMAS NA TELA TAMBÉM

#========================================

# Mostrar o histograma 1 na tela

d = hist(x,

breaks = aux,

right = T,

ylab = "FREQUÊNCIA ABSOLUTA",

main = "DESMATAMENTO EM KM2",

xlab = "KM2", col="#0E4C3E",

ylim = c(0,12),

axes = F,

xlim = c(0,30000))

axis(1, c(0,aux),round(c(0,aux),1))

axis(2)

text(d$mids, d$counts+0.5, paste(round(d$density*(max(x) - min(x))/6*100,2),"%", sep=""))

# -----------------------

# RESULTADO

# -----------------------

# valor mínimo = 4571

# valor máximo = 27772

# amplitude do intervalo = ( 27772 - 4571 ) ÷ 6 = 3866.833 Km2

# histograma1_frequencia_absoluta.png

# histograma2_densidade_frequencia.png

# tabela_frequencia.png

Resultado

INFORMATIVO: Lembre-se no exemplo anterior a AMPLITUDES DOS INTERVALOS ERAM IGUAIS com tamanho 3866.833 km2.

ATENÇÃO: Caso o seu histograma tenha AMPLITUDES DIFERENTES a sua leitura poderá ser distorcida se forem utilizadas as frequências absolutas ou relativas.

Referências

Vídeo YouTube: Como fazer um Histograma – Noções de Estatística #4 – A Ciência da Estatística

Características Principais de um Histograma

Elementos de um Histograma

Eixo horizontal (x): Representa os intervalos de valores (classes)
Eixo vertical (y): Representa a frequência ou contagem de observações
Barras: Mostram a frequência em cada intervalo
Largura das barras: Representa a amplitude do intervalo
Altura das barras: Representa a frequência no intervalo

Diferenças para Gráfico de Barras

No histograma, as barras são adjacentes (não há espaço entre elas)
As categorias no eixo x são intervalos numéricos contínuos
Usado para dados quantitativos contínuos
Mostra a distribuição e forma dos dados

Implementação de Amostragem Estratificada em R

19/12/202529/08/2025 Por antonino

Este documento apresenta uma implementação completa de amostragem estratificada em R, utilizando o pacote sampling e demonstrando todo o processo desde a preparação dos dados até a estimação de parâmetros populacionais.

Visão Geral do Código

O código R apresentado realiza uma amostragem estratificada proporcional utilizando a base de dados MU284, que contém informações sobre municípios suecos. O processo inclui:

Limpeza do ambiente de trabalho
Carregamento e preparação dos dados
Cálculo de alocações por estrato
Seleção da amostra
Estimação de parâmetros populacionais

Funções Auxiliares

Função clean_env

Esta função realiza uma limpeza completa do ambiente de trabalho do R:

clean_env <- function(hidden = TRUE, packages = FALSE, graphics = FALSE) {
  cat("?? Iniciando limpeza do ambiente...\n")
  
  # 1. Limpar objetos do ambiente global
  if (hidden) {
    rm(list = ls(all.names = TRUE), envir = .GlobalEnv)
    cat("? Objetos visíveis e ocultos removidos\n")
  } else {
    rm(list = ls(all.names = FALSE), envir = .GlobalEnv)
    cat("? Objetos visíveis removidos\n")
  }
  
  # 2. Limpar console (opcional - depende do ambiente)
  tryCatch({
    cat("\014") # Limpa console no RStudio
    cat("? Console limpo\n")
  }, error = function(e) {
    cat("??  Não foi possível limpar o console\n")
  })
  
  # 3. Fechar dispositivos gráficos
  if (graphics) {
    while (!is.null(dev.list())) {
      dev.off()
    }
    cat("? Dispositivos gráficos fechados\n")
  }
  
  # 4. Descarregar pacotes não-essenciais
  if (packages) {
    essential_pkgs <- c("base", "utils", "stats", "graphics", "grDevices", "methods")
    all_pkgs <- .packages()
    pkgs_to_unload <- setdiff(all_pkgs, essential_pkgs) if (length(pkgs_to_unload) > 0) {
      for (pkg in pkgs_to_unload) {
        tryCatch({
          detach(paste0("package:", pkg), character.only = TRUE, unload = TRUE)
        }, error = function(e) {
          # Alguns pacotes não podem ser descarregados
        })
      }
      cat("? Pacotes não-essenciais descarregados\n")
    }
  }
  
  # 5. Coletar lixo da memória
  gc(verbose = FALSE)
  cat("? Coleta de lixo realizada\n")
  
  cat("?? Ambiente limpo com sucesso!\n")
  invisible(TRUE)
}

clean_env <- function(hidden = TRUE, packages = FALSE, graphics = FALSE) {

cat("?? Iniciando limpeza do ambiente...\n")

# 1. Limpar objetos do ambiente global

if (hidden) {

rm(list = ls(all.names = TRUE), envir = .GlobalEnv)

cat("? Objetos visíveis e ocultos removidos\n")

} else {

rm(list = ls(all.names = FALSE), envir = .GlobalEnv)

cat("? Objetos visíveis removidos\n")

}

# 2. Limpar console (opcional - depende do ambiente)

tryCatch({

cat("\014") # Limpa console no RStudio

cat("? Console limpo\n")

}, error = function(e) {

cat("?? Não foi possível limpar o console\n")

})

# 3. Fechar dispositivos gráficos

if (graphics) {

while (!is.null(dev.list())) {

dev.off()

}

cat("? Dispositivos gráficos fechados\n")

}

# 4. Descarregar pacotes não-essenciais

if (packages) {

essential_pkgs <- c("base", "utils", "stats", "graphics", "grDevices", "methods")

all_pkgs <- .packages()

pkgs_to_unload <- setdiff(all_pkgs, essential_pkgs) if (length(pkgs_to_unload) > 0) {

for (pkg in pkgs_to_unload) {

tryCatch({

detach(paste0("package:", pkg), character.only = TRUE, unload = TRUE)

}, error = function(e) {

# Alguns pacotes não podem ser descarregados

})

}

cat("? Pacotes não-essenciais descarregados\n")

}

# 5. Coletar lixo da memória

gc(verbose = FALSE)

cat("? Coleta de lixo realizada\n")

cat("?? Ambiente limpo com sucesso!\n")

invisible(TRUE)

}

Funções de Suporte

Funções auxiliares para verificação de números inteiros e arredondamento:

# Verificar se um número é inteiro
eh_inteiro <- function(numero) {
  resultado <- (numero %% 1) == 0
  return(resultado)
}

# Arredondar cada elemento de um vetor para cima
arredondar_para_cima <- function(lista) {
  resultado <- numeric(length(lista))
  
  for (i in seq_along(lista)) {
    valor <- lista[i]
    if (eh_inteiro(valor)) {
      resultado[i] <- as.integer(valor) + 1
    } else {
      resultado[i] <- ceiling(valor)
    }
  }
  return(resultado)
}

# Verificar se um número é inteiro

eh_inteiro <- function(numero) {

resultado <- (numero %% 1) == 0

return(resultado)

}

# Arredondar cada elemento de um vetor para cima

arredondar_para_cima <- function(lista) {

resultado <- numeric(length(lista))

for (i in seq_along(lista)) {

valor <- lista[i]

if (eh_inteiro(valor)) {

resultado[i] <- as.integer(valor) + 1

} else {

resultado[i] <- ceiling(valor)

}

return(resultado)

}

Processo de Amostragem Estratificada

Preparação dos Dados

# Instalação e carregamento do pacote sampling
install.packages("sampling")
library(sampling)

# Carregar base de dados MU284 (municípios da Suécia)
data(MU284)

# Construir tabela de frequências da variável de estratificação
freq_estratos <- table(MU284$REG)  # Tabela de frequência por região
dados_populacao <- MU284           # Dados originais
nome_dataset <- "MU284"            # Nome do dataset como string

# Definições iniciais
N <- nrow(MU284)                   # Tamanho total da população
tamanhos <- list(80, 80)           # Tamanhos de amostra possíveis
n <- tamanhos[[1]]                 # Primeiro tamanho de amostra
qtd_estratos <- length(freq_estratos) # Número de estratos

# Definir semente para reprodutibilidade
semente <- 3
set.seed(semente)

# Variável usada para estratificação
variavel_estrato <- "REG"

# Variável numérica de interesse (estimativa média e total)
variavel_estimacao <- "P85"   # População em 1985
formula_estimacao <- as.formula(paste("~", variavel_estimacao))

# Instalação e carregamento do pacote sampling

install.packages("sampling")

library(sampling)

# Carregar base de dados MU284 (municípios da Suécia)

data(MU284)

# Construir tabela de frequências da variável de estratificação

freq_estratos <- table(MU284$REG) # Tabela de frequência por região

dados_populacao <- MU284 # Dados originais

nome_dataset <- "MU284" # Nome do dataset como string

# Definições iniciais

N <- nrow(MU284) # Tamanho total da população

tamanhos <- list(80, 80) # Tamanhos de amostra possíveis

n <- tamanhos[[1]] # Primeiro tamanho de amostra

qtd_estratos <- length(freq_estratos) # Número de estratos

# Definir semente para reprodutibilidade

semente <- 3

set.seed(semente)

# Variável usada para estratificação

variavel_estrato <- "REG"

# Variável numérica de interesse (estimativa média e total)

variavel_estimacao <- "P85" # População em 1985

formula_estimacao <- as.formula(paste("~", variavel_estimacao))

Cálculo de Alocações e Probabilidades

Alocação Proporcional

O cálculo da alocação proporcional segue a fórmula:

$n_h = n \times \frac{N_h}{N}$

Onde:

$n_h$ = tamanho da amostra no estrato h
$n$ = tamanho total da amostra
$N_h$ = tamanho do estrato h na população
$N$ = tamanho total da população

# Cálculo da alocação proporcional teórica
alocacao_teorica <- n * prop.table(freq_estratos)

# Ajuste da alocação (sempre arredondando para cima)
alocacao_final <- arredondar_para_cima(alocacao_teorica)

# Probabilidades de seleção em cada estrato
probabilidades <- alocacao_final / freq_estratos

# Cálculo da alocação proporcional teórica

alocacao_teorica <- n * prop.table(freq_estratos)

# Ajuste da alocação (sempre arredondando para cima)

alocacao_final <- arredondar_para_cima(alocacao_teorica)

# Probabilidades de seleção em cada estrato

probabilidades <- alocacao_final / freq_estratos

Seleção da Amostra e Estimação

Seleção da Amostra

# Seleção da amostra estratificada
amostra_ids <- strata(dados_populacao,
                      stratanames = variavel_estrato,
                      size = alocacao_final,
                      method = "srswor")

# Extração dos dados completos da amostra
amostra <- getdata(dados_populacao, amostra_ids)

# Seleção da amostra estratificada

amostra_ids <- strata(dados_populacao,

stratanames = variavel_estrato,

size = alocacao_final,

method = "srswor")

# Extração dos dados completos da amostra

amostra <- getdata(dados_populacao, amostra_ids)

Estimação com Correção para População Finita

O Fator de Correção para População Finita (FPC) é calculado como:

$FPC = \frac{N – n}{N}$

E é aplicado para reduzir o erro padrão das estimativas quando a amostra é uma fração significativa da população.

library(survey)

# Fator de correção para população finita (FPC)
fpc <- rep(freq_estratos, alocacao_final)

# Criar plano amostral com FPC
plano_amostral <- svydesign(
  id = ~1,
  strata = ~Stratum,
  probs = ~amostra_ids$Prob,
  data = amostra,
  fpc = ~fpc
)

# Estimar média e total populacional da variável de interesse
media_populacional <- svymean(formula_estimacao, plano_amostral)
total_populacional <- svytotal(formula_estimacao, plano_amostral)

# Estimativas por estrato (com FPC)
media_por_estrato <- svyby(formula_estimacao, by = ~Stratum, design = plano_amostral, FUN = svymean)
total_por_estrato <- svyby(formula_estimacao, by = ~Stratum, design = plano_amostral, FUN = svytotal)

library(survey)

# Fator de correção para população finita (FPC)

fpc <- rep(freq_estratos, alocacao_final)

# Criar plano amostral com FPC

plano_amostral <- svydesign(

id = ~1,

strata = ~Stratum,

probs = ~amostra_ids$Prob,

data = amostra,

fpc = ~fpc

)

# Estimar média e total populacional da variável de interesse

media_populacional <- svymean(formula_estimacao, plano_amostral)

total_populacional <- svytotal(formula_estimacao, plano_amostral)

# Estimativas por estrato (com FPC)

media_por_estrato <- svyby(formula_estimacao, by = ~Stratum, design = plano_amostral, FUN = svymean)

total_por_estrato <- svyby(formula_estimacao, by = ~Stratum, design = plano_amostral, FUN = svytotal)

Considerações Importantes

Vantagens da Amostragem Estratificada

Garante representatividade de todos os subgrupos relevantes
Pode resultar em estimativas mais precisas
Permite análise separada para cada estrato
Mais eficiente quando os estratos são homogêneos internamente

Desafios e Considerações

Requer conhecimento prévio da população para definir estratos
O arredondamento pode alterar ligeiramente o tamanho total da amostra
A escolha da variável de estratificação é crucial
Pode ser mais complexa de implementar que amostragem aleatória simples

Conclusão

Este código demonstra uma implementação completa de amostragem estratificada em R, desde a preparação do ambiente até a estimação de parâmetros populacionais com correção para população finita. A abordagem apresentada garante que todos os estratos da população estejam adequadamente representados na amostra, resultando em estimativas mais precisas e confiáveis.

O uso do pacote survey permite incorporar o desenho amostral complexo nas estimativas, produzindo erros padrão apropriados e intervalos de confiança válidos para os parâmetros populacionais de interesse.

Referências

Lumley, T. (2004). “Analysis of Complex Survey Samples”. Journal of Statistical Software.
Cochran, W. G. (1977). “Sampling Techniques”. 3rd ed. John Wiley & Sons.
Sarndal, C. E., Swensson, B., & Wretman, J. (1992). “Model Assisted Survey Sampling”. Springer-Verlag.
Documentação do pacote sampling: https://cran.r-project.org/web/packages/sampling/
Documentação do pacote survey: https://cran.r-project.org/web/packages/survey/

Projeto no GitHub

Amostragem Estratificada em R