Arquivo de Python - Página 70 de 94

Análise Estatística Descritiva com df.describe() no Pandas

19/12/202520/09/2025 Por antonino

O método df.describe() é uma das funções mais úteis e frequentemente utilizadas na biblioteca Pandas para Python. Ele fornece um resumo estatístico rápido das colunas numéricas e de objeto em um DataFrame, permitindo uma compreensão rápida da distribuição e características dos dados.

O que é df.describe()?

O método describe() gera estatísticas descritivas que resumem a tendência central, dispersão e forma da distribuição de um conjunto de dados, excluindo valores NaN.

Por padrão, o método fornece:

Para dados numéricos: count, mean, std, min, quartis (25%, 50%, 75%) e max
Para dados categóricos/object: count, unique, top (valor mais frequente) e freq (frequência do top)

Exemplo básico de uso:

import pandas as pd
import numpy as np

# Criando um DataFrame de exemplo
df = pd.DataFrame({
    'idade': [25, 30, 35, 40, 45, 50, 55, 60, 65, 70],
    'salario': [5000, 6000, 7000, 8000, 9000, 10000, 11000, 12000, 13000, 14000],
    'departamento': ['Vendas', 'TI', 'Vendas', 'TI', 'RH', 'Vendas', 'TI', 'RH', 'Vendas', 'TI']
})

# Gerando estatísticas descritivas
estatisticas = df.describe()
print(estatisticas)

import pandas as pd

import numpy as np

# Criando um DataFrame de exemplo

df = pd.DataFrame({

'idade': [25, 30, 35, 40, 45, 50, 55, 60, 65, 70],

'salario': [5000, 6000, 7000, 8000, 9000, 10000, 11000, 12000, 13000, 14000],

'departamento': ['Vendas', 'TI', 'Vendas', 'TI', 'RH', 'Vendas', 'TI', 'RH', 'Vendas', 'TI']

})

# Gerando estatísticas descritivas

estatisticas = df.describe()

print(estatisticas)

Em R, a função equivalente seria summary() aplicada a um data frame:

# Criando um data frame de exemplo em R
df <- data.frame(
  idade = c(25, 30, 35, 40, 45, 50, 55, 60, 65, 70),
  salario = c(5000, 6000, 7000, 8000, 9000, 10000, 11000, 12000, 13000, 14000),
  departamento = c('Vendas', 'TI', 'Vendas', 'TI', 'RH', 'Vendas', 'TI', 'RH', 'Vendas', 'TI')
)

# Gerando estatísticas descritivas
estatisticas <- summary(df)
print(estatisticas)

# Criando um data frame de exemplo em R

df <- data.frame(

idade = c(25, 30, 35, 40, 45, 50, 55, 60, 65, 70),

salario = c(5000, 6000, 7000, 8000, 9000, 10000, 11000, 12000, 13000, 14000),

departamento = c('Vendas', 'TI', 'Vendas', 'TI', 'RH', 'Vendas', 'TI', 'RH', 'Vendas', 'TI')

)

# Gerando estatísticas descritivas

estatisticas <- summary(df)

print(estatisticas)

Estatísticas Fornecidas pelo describe()

Para Variáveis Numéricas

Para colunas numéricas, describe() retorna oito medidas estatísticas principais:

Medidas de Posição:

count: Quantidade de valores não nulos
mean: Média aritmética dos valores
min: Valor mínimo
max: Valor máximo

Medidas de Dispersão:

std: Desvio padrão (medida de dispersão)
25%: Primeiro quartil (Q1)
50%: Mediana (segundo quartil, Q2)
75%: Terceiro quartil (Q3)

Interpretação Matemática:

As medidas de posição e dispersão podem ser representadas matematicamente:

$\text{Média} (\mu) = \frac{1}{n}\sum_{i=1}^{n}x_i$ $\text{Desvio Padrão} (\sigma) = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_i – \mu)^2}$ $\text{Mediana} = \begin{cases} x_{\frac{n+1}{2}} & \text{se n é ímpar} \\ \frac{x_{\frac{n}{2}} + x_{\frac{n}{2}+1}}{2} & \text{se n é par} \end{cases}$

Para Variáveis Categóricas

Para colunas do tipo object (strings) ou categóricas, describe() retorna quatro medidas diferentes:

Medidas de Frequência:

count: Quantidade de valores não nulos
unique: Número de valores únicos

Medidas de Moda:

top: Valor mais frequente (moda)
freq: Frequência do valor mais comum

Exemplo com dados categóricos:

# Para incluir variáveis categóricas no describe()
estatisticas_categoricas = df.describe(include=['object'])
print(estatisticas_categoricas)

# Para incluir variáveis categóricas no describe()

estatisticas_categoricas = df.describe(include=['object'])

print(estatisticas_categoricas)

Em R, para obter estatísticas de variáveis categóricas, usamos table() ou funções específicas:

# Estatísticas para variáveis categóricas em R
table(df$departamento)
# Ou para uma análise mais detalhada
summary(df$departamento)

# Estatísticas para variáveis categóricas em R

table(df$departamento)

# Ou para uma análise mais detalhada

summary(df$departamento)

Relação entre as Medidas Estatísticas

As estatísticas fornecidas pelo describe() estão inter-relacionadas e fornecem uma visão abrangente da distribuição dos dados:

$\text{Intervalo Interquartil (IQR)} = Q_3 – Q_1$

O IQR é uma medida de dispersão robusta a outliers, diferentemente do desvio padrão.

Podemos detectar outliers usando a regra:

Outlier inferior < $Q_1$ - 1.5 IQR e

Outlier superior > $Q_3$ + 1.5 IQR

O coeficiente de variação (CV) é outra medida útil:

$CV = \frac{\sigma}{\mu} \times 100\%$

Que representa a dispersão relativa dos dados em relação à média.

Quando e Como Usar df.describe()

Análise Exploratória Inicial

Use describe() como uma das primeiras etapas na análise de dados para obter uma visão geral rápida das variáveis numéricas.

# Primeira análise dos dados
print(df.describe())

# Para incluir todas as colunas, inclusive não numéricas
print(df.describe(include='all'))

# Primeira análise dos dados

print(df.describe())

# Para incluir todas as colunas, inclusive não numéricas

print(df.describe(include='all'))

Identificação de Outliers

Use os quartis e valores min/max para identificar possíveis outliers nos dados.

# Identificando outliers com base no IQR
Q1 = df['coluna'].quantile(0.25)
Q3 = df['coluna'].quantile(0.75)
IQR = Q3 - Q1
limite_inferior = Q1 - 1.5 * IQR
limite_superior = Q3 + 1.5 * IQR

outliers = df[(df['coluna'] < limite_inferior) | (df['coluna'] > limite_superior)]

# Identificando outliers com base no IQR

Q1 = df['coluna'].quantile(0.25)

Q3 = df['coluna'].quantile(0.75)

IQR = Q3 - Q1

limite_inferior = Q1 - 1.5 * IQR

limite_superior = Q3 + 1.5 * IQR

outliers = df[(df['coluna'] < limite_inferior) | (df['coluna'] > limite_superior)]

Comparação entre Grupos

Use describe() em conjunto com groupby() para comparar estatísticas entre diferentes categorias.

# Estatísticas descritivas por grupo
estatisticas_por_departamento = df.groupby('departamento')['salario'].describe()
print(estatisticas_por_departamento)

# Estatísticas descritivas por grupo

estatisticas_por_departamento = df.groupby('departamento')['salario'].describe()

print(estatisticas_por_departamento)

Em R, usamos funções do pacote dplyr para operações similares:

library(dplyr)

# Estatísticas descritivas por grupo em R
estatisticas_por_departamento <- df %>%
  group_by(departamento) %>%
  summarize(
    media = mean(salario),
    desvio_padrao = sd(salario),
    mediana = median(salario),
    min = min(salario),
    max = max(salario)
  )
print(estatisticas_por_departamento)

library(dplyr)

# Estatísticas descritivas por grupo em R

estatisticas_por_departamento <- df %>%

group_by(departamento) %>%

summarize(

media = mean(salario),

desvio_padrao = sd(salario),

mediana = median(salario),

min = min(salario),

max = max(salario)

)

print(estatisticas_por_departamento)

Personalizando o df.describe()

O método describe() aceita vários parâmetros para personalizar sua saída:

Parâmetros Principais:

percentiles: Lista de percentis para incluir (padrão: [.25, .5, .75])
include: Tipos de dados a incluir (padrão: apenas numéricos)
exclude: Tipos de dados a excluir
datetime_is_numeric: Tratar datetime como numérico (padrão: True)

Exemplos de personalização:

# Incluindo percentis específicos
estatisticas_personalizadas = df.describe(percentiles=[.1, .2, .8, .9])

# Incluindo todos os tipos de dados
estatisticas_completas = df.describe(include='all')

# Excluindo tipos específicos
estatisticas_sem_object = df.describe(exclude=['object'])

# Para dados datetime
df_data = pd.DataFrame({
    'data': pd.date_range('2023-01-01', periods=10, freq='D'),
    'valor': range(10)
})
estatisticas_data = df_data.describe(datetime_is_numeric=True)

# Incluindo percentis específicos

estatisticas_personalizadas = df.describe(percentiles=[.1, .2, .8, .9])

# Incluindo todos os tipos de dados

estatisticas_completas = df.describe(include='all')

# Excluindo tipos específicos

estatisticas_sem_object = df.describe(exclude=['object'])

# Para dados datetime

df_data = pd.DataFrame({

'data': pd.date_range('2023-01-01', periods=10, freq='D'),

'valor': range(10)

})

estatisticas_data = df_data.describe(datetime_is_numeric=True)

⚠️ Limitações e Considerações

Embora describe() seja extremamente útil, é importante entender suas limitações:

Não mostra a assimetria (skewness) ou curtose da distribuição
Não fornece informações sobre missing values além do count
Para uma análise completa, é necessário complementar com outras técnicas
Pode ser enganoso para distribuições multimodais ou assimétricas

Conclusão

O método df.describe() é uma ferramenta poderosa para análise exploratória de dados em Python com Pandas. Ele fornece um resumo estatístico rápido que ajuda a entender a distribuição, tendência central e dispersão dos dados.

Lembre-se de que describe() é apenas o ponto de partida para a análise de dados. Para uma compreensão completa, complemente essas estatísticas com visualizações, testes de hipóteses e análises mais profundas específicas do seu domínio de aplicação.

Referências

Documentação oficial do Pandas: DataFrame.describe()
Real Python: Using Pandas describe()
Towards Data Science: Understanding Descriptive Statistics

Importação de Módulos e Bibliotecas em Python

19/12/202520/09/2025 Por antonino

Em Python, a importação de módulos, bibliotecas e métodos é fundamental para expandir as funcionalidades básicas da linguagem. Existem várias formas de importar recursos externos, cada uma com suas particularidades e casos de uso específicos.

Tipos de Importação em Python

1. Importação de Módulos Específicos

A instrução from datetime import datetime importa apenas a classe datetime do módulo datetime, permitindo usá-la diretamente sem precisar referenciar o módulo.

Vantagens:

Código mais limpo e legível
Não precisa usar o nome do módulo como prefixo
Economiza tempo de digitação

Cuidados:

Pode causar conflitos de nomes
Pode tornar menos claro a origem da função/classe

Exemplo de uso:

from datetime import datetime
agora = datetime.now()
print(agora.strftime("%d/%m/%Y %H:%M:%S"))

from datetime import datetime

agora = datetime.now()

print(agora.strftime("%d/%m/%Y %H:%M:%S"))

Em R, o equivalente seria usar o operador :: para acessar funções específicas de um pacote:

# Equivalente em R: acessando função específica de um pacote
# lubridate::now()

1 2	# Equivalente em R: acessando função específica de um pacote # lubridate::now()

2. Importação de Módulos Completos

A instrução import os importa todo o módulo os, que fornece funções para interagir com o sistema operacional. Para usar suas funções, é necessário prefixá-las com os..

Vantagens:

Evita conflitos de nomes
Torna explícito a qual módulo pertence cada função
Importa todas as funcionalidades do módulo

Desvantagens:

Código mais verboso
Necessidade de digitar o prefixo repetidamente

Exemplo de uso:

import os
diretorio_atual = os.getcwd()
conteudo = os.listdir(diretorio_atual)
print(f"Diretório atual: {diretorio_atual}")
print(f"Conteúdo: {conteudo}")

import os

diretorio_atual = os.getcwd()

conteudo = os.listdir(diretorio_atual)

print(f"Diretório atual: {diretorio_atual}")

print(f"Conteúdo: {conteudo}")

Em R, o equivalente seria carregar um pacote completo com library():

# Equivalente em R: carregando um pacote completo
library(fs)
diretorio_atual <- getwd()
conteudo <- dir_ls(diretorio_atual)
print(paste("Diretório atual:", diretorio_atual))
print(paste("Conteúdo:", conteudo))

# Equivalente em R: carregando um pacote completo

library(fs)

diretorio_atual <- getwd()

conteudo <- dir_ls(diretorio_atual)

print(paste("Diretório atual:", diretorio_atual))

print(paste("Conteúdo:", conteudo))

3. Importação de Tudo de um Módulo

A instrução from sklearn import * importa todas as classes, funções e variáveis do módulo sklearn para o namespace atual. Esta abordagem é geralmente desencorajada.

Vantagens:

Acesso direto a todas as funcionalidades
Código mais curto (sem necessidade de prefixos)

Desvantagens:

Alto risco de conflitos de nomes
Dificulta a leitura e compreensão do código
Pode importar itens desnecessários, consumindo mais memória
Considerada má prática pela comunidade Python

Exemplo de uso (não recomendado):

from sklearn import *
# Agora todas as funções e classes do sklearn estão disponíveis
# diretamente, mas isso pode causar conflitos de nomes

from sklearn import *

# Agora todas as funções e classes do sklearn estão disponíveis

# diretamente, mas isso pode causar conflitos de nomes

⚠️ Esta prática é desencorajada pois pode levar a conflitos de nomes e dificulta a legibilidade do código. Prefira importações explícitas.

Em R, o equivalente aproximado seria carregar um pacote e usar suas funções diretamente, mas R tem um sistema de namespaces mais permissivo:

# Em R, ao carregar um pacote com library(), todas as funções ficam disponíveis
library(dplyr)
# Mas funções com nomes conflitantes podem precisar de qualificação explícita

# Em R, ao carregar um pacote com library(), todas as funções ficam disponíveis

library(dplyr)

# Mas funções com nomes conflitantes podem precisar de qualificação explícita

Relação Matemática entre os Tipos de Importação

Podemos pensar nos diferentes tipos de importação como operações matemáticas de conjuntos:

Seja M o conjunto de todos os elementos (funções, classes, variáveis) de um módulo:

import modulo → Acesso a todos os elementos através de modulo.elemento
from modulo import elemento → Importação de um elemento específico: {elemento} ⊆ M
from modulo import * → Importação de todos os elementos: M

Matematicamente, podemos expressar isso como: $Elemento \in M$

Guia de Decisão: Quando Usar Cada Tipo de Importação

Use `from modulo import elemento` quando:

Você precisa de apenas uma ou poucas funcionalidades específicas
Quer evitar digitação excessiva
O nome do elemento é único e não conflita com outros no seu código

Use `import modulo` quando:

Você precisa de várias funcionalidades do módulo
Quer evitar conflitos de nomes
Deseja tornar explícita a origem de cada função

Evite `from modulo import *` exceto quando:

Está trabalhando em um ambiente controlado e interativo
O módulo foi projetado especificamente para este uso (raro)
Está prototipando rapidamente e não em produção

Conclusão

O Python oferece flexibilidade na importação de módulos e bibliotecas, mas com essa flexibilidade vem a responsabilidade de escolher a abordagem mais adequada para cada situação. Como regra geral, prefira importações explícitas (import modulo ou from modulo import elemento) para escrever código mais legível e maintainable.

Lembre-se que importações são fundamentais para expandir as capacidades do Python, permitindo acesso a um vasto ecossistema de bibliotecas para áreas como ciência de dados (pandas, numpy, scikit-learn), desenvolvimento web (Django, Flask), e muitas outras.

Referências

Documentação oficial do Python: Sistema de Importação
PEP 8 – Style Guide for Python Code: Recomendações sobre Importações
Real Python: Módulos e Pacotes Python

O que é df.describe()?

Exemplo básico de uso:

Estatísticas Fornecidas pelo describe()

Para Variáveis Numéricas

Medidas de Posição:

Medidas de Dispersão:

Interpretação Matemática:

Para Variáveis Categóricas

Medidas de Frequência:

Medidas de Moda:

Exemplo com dados categóricos:

Relação entre as Medidas Estatísticas

Quando e Como Usar df.describe()

Análise Exploratória Inicial

Identificação de Outliers

Comparação entre Grupos

Personalizando o df.describe()

Parâmetros Principais:

Exemplos de personalização:

⚠️ Limitações e Considerações

Conclusão

Referências

Tipos de Importação em Python

1. Importação de Módulos Específicos

Vantagens:

Cuidados:

Exemplo de uso:

2. Importação de Módulos Completos

Vantagens:

Desvantagens:

Exemplo de uso:

3. Importação de Tudo de um Módulo

Vantagens:

Desvantagens:

Exemplo de uso (não recomendado):

Relação Matemática entre os Tipos de Importação

Guia de Decisão: Quando Usar Cada Tipo de Importação

Use from modulo import elemento quando:

Use import modulo quando:

Evite from modulo import * exceto quando:

Conclusão

Referências

Use `from modulo import elemento` quando:

Use `import modulo` quando:

Evite `from modulo import *` exceto quando: