Arquivo de pandas - Página 2 de 2

O método df.describe() é uma das funções mais úteis e frequentemente utilizadas na biblioteca Pandas para Python. Ele fornece um resumo estatístico rápido das colunas numéricas e de objeto em um DataFrame, permitindo uma compreensão rápida da distribuição e características dos dados.

O que é df.describe()?

O método describe() gera estatísticas descritivas que resumem a tendência central, dispersão e forma da distribuição de um conjunto de dados, excluindo valores NaN.

Por padrão, o método fornece:

Para dados numéricos: count, mean, std, min, quartis (25%, 50%, 75%) e max
Para dados categóricos/object: count, unique, top (valor mais frequente) e freq (frequência do top)

Exemplo básico de uso:

import pandas as pd
import numpy as np

# Criando um DataFrame de exemplo
df = pd.DataFrame({
    'idade': [25, 30, 35, 40, 45, 50, 55, 60, 65, 70],
    'salario': [5000, 6000, 7000, 8000, 9000, 10000, 11000, 12000, 13000, 14000],
    'departamento': ['Vendas', 'TI', 'Vendas', 'TI', 'RH', 'Vendas', 'TI', 'RH', 'Vendas', 'TI']
})

# Gerando estatísticas descritivas
estatisticas = df.describe()
print(estatisticas)

import pandas as pd

import numpy as np

# Criando um DataFrame de exemplo

df = pd.DataFrame({

'idade': [25, 30, 35, 40, 45, 50, 55, 60, 65, 70],

'salario': [5000, 6000, 7000, 8000, 9000, 10000, 11000, 12000, 13000, 14000],

'departamento': ['Vendas', 'TI', 'Vendas', 'TI', 'RH', 'Vendas', 'TI', 'RH', 'Vendas', 'TI']

})

# Gerando estatísticas descritivas

estatisticas = df.describe()

print(estatisticas)

Em R, a função equivalente seria summary() aplicada a um data frame:

# Criando um data frame de exemplo em R
df <- data.frame(
  idade = c(25, 30, 35, 40, 45, 50, 55, 60, 65, 70),
  salario = c(5000, 6000, 7000, 8000, 9000, 10000, 11000, 12000, 13000, 14000),
  departamento = c('Vendas', 'TI', 'Vendas', 'TI', 'RH', 'Vendas', 'TI', 'RH', 'Vendas', 'TI')
)

# Gerando estatísticas descritivas
estatisticas <- summary(df)
print(estatisticas)

# Criando um data frame de exemplo em R

df <- data.frame(

idade = c(25, 30, 35, 40, 45, 50, 55, 60, 65, 70),

salario = c(5000, 6000, 7000, 8000, 9000, 10000, 11000, 12000, 13000, 14000),

departamento = c('Vendas', 'TI', 'Vendas', 'TI', 'RH', 'Vendas', 'TI', 'RH', 'Vendas', 'TI')

)

# Gerando estatísticas descritivas

estatisticas <- summary(df)

print(estatisticas)

Estatísticas Fornecidas pelo describe()

Para Variáveis Numéricas

Para colunas numéricas, describe() retorna oito medidas estatísticas principais:

Medidas de Posição:

count: Quantidade de valores não nulos
mean: Média aritmética dos valores
min: Valor mínimo
max: Valor máximo

Medidas de Dispersão:

std: Desvio padrão (medida de dispersão)
25%: Primeiro quartil (Q1)
50%: Mediana (segundo quartil, Q2)
75%: Terceiro quartil (Q3)

Interpretação Matemática:

As medidas de posição e dispersão podem ser representadas matematicamente:

$\text{Média} (\mu) = \frac{1}{n}\sum_{i=1}^{n}x_i$ $\text{Desvio Padrão} (\sigma) = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_i – \mu)^2}$ $\text{Mediana} = \begin{cases} x_{\frac{n+1}{2}} & \text{se n é ímpar} \\ \frac{x_{\frac{n}{2}} + x_{\frac{n}{2}+1}}{2} & \text{se n é par} \end{cases}$

Para Variáveis Categóricas

Para colunas do tipo object (strings) ou categóricas, describe() retorna quatro medidas diferentes:

Medidas de Frequência:

count: Quantidade de valores não nulos
unique: Número de valores únicos

Medidas de Moda:

top: Valor mais frequente (moda)
freq: Frequência do valor mais comum

Exemplo com dados categóricos:

# Para incluir variáveis categóricas no describe()
estatisticas_categoricas = df.describe(include=['object'])
print(estatisticas_categoricas)

# Para incluir variáveis categóricas no describe()

estatisticas_categoricas = df.describe(include=['object'])

print(estatisticas_categoricas)

Em R, para obter estatísticas de variáveis categóricas, usamos table() ou funções específicas:

# Estatísticas para variáveis categóricas em R
table(df$departamento)
# Ou para uma análise mais detalhada
summary(df$departamento)

# Estatísticas para variáveis categóricas em R

table(df$departamento)

# Ou para uma análise mais detalhada

summary(df$departamento)

Relação entre as Medidas Estatísticas

As estatísticas fornecidas pelo describe() estão inter-relacionadas e fornecem uma visão abrangente da distribuição dos dados:

$\text{Intervalo Interquartil (IQR)} = Q_3 – Q_1$

O IQR é uma medida de dispersão robusta a outliers, diferentemente do desvio padrão.

Podemos detectar outliers usando a regra:

Outlier inferior < $Q_1$ - 1.5 IQR e

Outlier superior > $Q_3$ + 1.5 IQR

O coeficiente de variação (CV) é outra medida útil:

$CV = \frac{\sigma}{\mu} \times 100\%$

Que representa a dispersão relativa dos dados em relação à média.

Quando e Como Usar df.describe()

Análise Exploratória Inicial

Use describe() como uma das primeiras etapas na análise de dados para obter uma visão geral rápida das variáveis numéricas.

# Primeira análise dos dados
print(df.describe())

# Para incluir todas as colunas, inclusive não numéricas
print(df.describe(include='all'))

# Primeira análise dos dados

print(df.describe())

# Para incluir todas as colunas, inclusive não numéricas

print(df.describe(include='all'))

Identificação de Outliers

Use os quartis e valores min/max para identificar possíveis outliers nos dados.

# Identificando outliers com base no IQR
Q1 = df['coluna'].quantile(0.25)
Q3 = df['coluna'].quantile(0.75)
IQR = Q3 - Q1
limite_inferior = Q1 - 1.5 * IQR
limite_superior = Q3 + 1.5 * IQR

outliers = df[(df['coluna'] < limite_inferior) | (df['coluna'] > limite_superior)]

# Identificando outliers com base no IQR

Q1 = df['coluna'].quantile(0.25)

Q3 = df['coluna'].quantile(0.75)

IQR = Q3 - Q1

limite_inferior = Q1 - 1.5 * IQR

limite_superior = Q3 + 1.5 * IQR

outliers = df[(df['coluna'] < limite_inferior) | (df['coluna'] > limite_superior)]

Comparação entre Grupos

Use describe() em conjunto com groupby() para comparar estatísticas entre diferentes categorias.

# Estatísticas descritivas por grupo
estatisticas_por_departamento = df.groupby('departamento')['salario'].describe()
print(estatisticas_por_departamento)

# Estatísticas descritivas por grupo

estatisticas_por_departamento = df.groupby('departamento')['salario'].describe()

print(estatisticas_por_departamento)

Em R, usamos funções do pacote dplyr para operações similares:

library(dplyr)

# Estatísticas descritivas por grupo em R
estatisticas_por_departamento <- df %>%
  group_by(departamento) %>%
  summarize(
    media = mean(salario),
    desvio_padrao = sd(salario),
    mediana = median(salario),
    min = min(salario),
    max = max(salario)
  )
print(estatisticas_por_departamento)

library(dplyr)

# Estatísticas descritivas por grupo em R

estatisticas_por_departamento <- df %>%

group_by(departamento) %>%

summarize(

media = mean(salario),

desvio_padrao = sd(salario),

mediana = median(salario),

min = min(salario),

max = max(salario)

)

print(estatisticas_por_departamento)

Personalizando o df.describe()

O método describe() aceita vários parâmetros para personalizar sua saída:

Parâmetros Principais:

percentiles: Lista de percentis para incluir (padrão: [.25, .5, .75])
include: Tipos de dados a incluir (padrão: apenas numéricos)
exclude: Tipos de dados a excluir
datetime_is_numeric: Tratar datetime como numérico (padrão: True)

Exemplos de personalização:

# Incluindo percentis específicos
estatisticas_personalizadas = df.describe(percentiles=[.1, .2, .8, .9])

# Incluindo todos os tipos de dados
estatisticas_completas = df.describe(include='all')

# Excluindo tipos específicos
estatisticas_sem_object = df.describe(exclude=['object'])

# Para dados datetime
df_data = pd.DataFrame({
    'data': pd.date_range('2023-01-01', periods=10, freq='D'),
    'valor': range(10)
})
estatisticas_data = df_data.describe(datetime_is_numeric=True)

# Incluindo percentis específicos

estatisticas_personalizadas = df.describe(percentiles=[.1, .2, .8, .9])

# Incluindo todos os tipos de dados

estatisticas_completas = df.describe(include='all')

# Excluindo tipos específicos

estatisticas_sem_object = df.describe(exclude=['object'])

# Para dados datetime

df_data = pd.DataFrame({

'data': pd.date_range('2023-01-01', periods=10, freq='D'),

'valor': range(10)

})

estatisticas_data = df_data.describe(datetime_is_numeric=True)

⚠️ Limitações e Considerações

Embora describe() seja extremamente útil, é importante entender suas limitações:

Não mostra a assimetria (skewness) ou curtose da distribuição
Não fornece informações sobre missing values além do count
Para uma análise completa, é necessário complementar com outras técnicas
Pode ser enganoso para distribuições multimodais ou assimétricas

Conclusão

O método df.describe() é uma ferramenta poderosa para análise exploratória de dados em Python com Pandas. Ele fornece um resumo estatístico rápido que ajuda a entender a distribuição, tendência central e dispersão dos dados.

Lembre-se de que describe() é apenas o ponto de partida para a análise de dados. Para uma compreensão completa, complemente essas estatísticas com visualizações, testes de hipóteses e análises mais profundas específicas do seu domínio de aplicação.

Referências

Documentação oficial do Pandas: DataFrame.describe()
Real Python: Using Pandas describe()
Towards Data Science: Understanding Descriptive Statistics

Tratamento de Dados com Pandas

O tratamento de dados ausentes é uma etapa crucial na análise de dados. No Pandas, existem várias funções para lidar com valores faltantes, sendo df.info(), df.dropna() e df.fillna(valor) algumas das mais importantes.

Funções Principais para Dados Ausentes

df.info()

A função info() fornece um resumo conciso do DataFrame, incluindo:

Número de entradas não nulas por coluna
Tipo de dados de cada coluna
Uso de memória

É útil para identificar rapidamente colunas com valores ausentes.

Exemplo de uso:

# Importar pandas
library(pandas)

# Criar DataFrame com valores ausentes
df <- data.frame(
  'A' = c(1, 2, NA, 4),
  'B' = c('a', NA, 'c', 'd'),
  'C' = c(NA, NA, 3, 4)
)

# Visualizar informações do DataFrame
print(df$info())

# Importar pandas

library(pandas)

# Criar DataFrame com valores ausentes

df <- data.frame(

'A' = c(1, 2, NA, 4),

'B' = c('a', NA, 'c', 'd'),

'C' = c(NA, NA, 3, 4)

)

# Visualizar informações do DataFrame

print(df$info())

df.dropna()

A função dropna() remove linhas ou colunas que contenham valores ausentes.

Parâmetros importantes:

axis: 0 para linhas, 1 para colunas
how: ‘any’ (remove se algum valor for NA) ou ‘all’ (remove se todos os valores forem NA)
subset: colunas específicas para verificar valores NA

Exemplo de uso:

# Remover linhas com pelo menos um valor ausente
df_sem_na <- df$dropna()

# Remover linhas onde todos os valores são ausentes
df_sem_todos_na <- df$dropna(how='all')

# Remover colunas com pelo menos um valor ausente
df_sem_colunas_na <- df$dropna(axis=1)

# Remover linhas com pelo menos um valor ausente

df_sem_na <- df$dropna()

# Remover linhas onde todos os valores são ausentes

df_sem_todos_na <- df$dropna(how='all')

# Remover colunas com pelo menos um valor ausente

df_sem_colunas_na <- df$dropna(axis=1)

df.fillna(valor)

A função fillna() preenche valores ausentes com um valor específico.

Pode receber como argumento:

Um valor escalar (preenche todos os NAs com esse valor)
Um dicionário mapeando colunas para valores
Métodos como ‘ffill’ (forward fill) ou ‘bfill’ (backward fill)

Exemplo de uso:

# Preencher todos os valores ausentes com 0
df_preenchido <- df$fillna(0)

# Preencher valores ausentes com a média da coluna
media_A <- mean(df$A, na.rm=TRUE)
df$A <- df$A$fillna(media_A)

# Preencher com diferentes valores para cada coluna
valores_preenchimento <- list('A'=0, 'B'='desconhecido', 'C'=median(df$C, na.rm=TRUE))
df_preenchido <- df$fillna(value=valores_preenchimento)

# Preencher todos os valores ausentes com 0

df_preenchido <- df$fillna(0)

# Preencher valores ausentes com a média da coluna

media_A <- mean(df$A, na.rm=TRUE)

df$A <- df$A$fillna(media_A)

# Preencher com diferentes valores para cada coluna

valores_preenchimento <- list('A'=0, 'B'='desconhecido', 'C'=median(df$C, na.rm=TRUE))

df_preenchido <- df$fillna(value=valores_preenchimento)

Comparativo entre as Abordagens

Vantagens de df.dropna()

Remove completamente os dados problemáticos
Mantém a integridade dos dados restantes
Simples de implementar

Desvantagens de df.dropna()

Pode resultar em perda significativa de dados
Pode introduzir viés se os valores ausentes não forem completamente aleatórios
Não é adequado quando há muitos valores ausentes

Vantagens de df.fillna()

Preserva o tamanho do dataset
Mantém outras variáveis inalteradas
Permite uso de diferentes estratégias de preenchimento

Desvantagens de df.fillna()

Pode distorcer distribuições estatísticas
Pode introduzir viés se o método de preenchimento for inadequado
Valores preenchidos podem não representar a realidade

Conclusão

O tratamento de dados ausentes é fundamental para uma análise precisa. A escolha entre dropna() e fillna() depende do contexto:

Use info() para diagnosticar a extensão dos dados ausentes
Prefira dropna() quando a perda de dados for aceitável e os valores ausentes forem escassos
Use fillna() com estratégias adequadas quando precisar manter todas as observações

Lembre-se que não existe uma solução única – a abordagem deve ser adaptada a cada conjunto de dados e pergunta de pesquisa.

Referências

Pandas Documentation: Handling Missing Data
McKinney, W. (2017). Python for Data Analysis.
VanderPlas, J. (2016). Python Data Science Handbook.

GitHub

Analise de Dados com Pandas

Análise Estatística Descritiva com df.describe() no Pandas

O que é df.describe()?

Exemplo básico de uso:

Estatísticas Fornecidas pelo describe()

Para Variáveis Numéricas

Medidas de Posição:

Medidas de Dispersão:

Interpretação Matemática:

Para Variáveis Categóricas

Medidas de Frequência:

Medidas de Moda:

Exemplo com dados categóricos:

Relação entre as Medidas Estatísticas

Quando e Como Usar df.describe()

Análise Exploratória Inicial

Identificação de Outliers

Comparação entre Grupos

Personalizando o df.describe()

Parâmetros Principais:

Exemplos de personalização:

⚠️ Limitações e Considerações

Conclusão

Referências

Tratamento de Dados Ausentes com Pandas

Funções Principais para Dados Ausentes

df.info()

Exemplo de uso:

df.dropna()

Exemplo de uso:

df.fillna(valor)

Exemplo de uso:

Comparativo entre as Abordagens

Vantagens de df.dropna()

Desvantagens de df.dropna()

Vantagens de df.fillna()

Desvantagens de df.fillna()

Conclusão

Referências

GitHub