Arquivo de Análise de Dados - Página 4 de 12

Análise de Estrutura de Dados com df.info() no Pandas

19/12/202520/09/2025 Por antonino

O método df.info() é uma ferramenta essencial na biblioteca Pandas para Python que fornece um resumo conciso sobre um DataFrame. Ele é especialmente útil para entender a estrutura dos dados, tipos de colunas e valores não nulos.

O que é df.info()?

O método info() exibe um resumo informativo sobre um DataFrame, incluindo:

O número de entradas (linhas) no DataFrame
O número de colunas
Os nomes das colunas e seus tipos de dados
O número de valores não nulos em cada coluna
O uso de memória pelo DataFrame

Exemplo básico de uso:

import pandas as pd
import numpy as np

# Criando um DataFrame de exemplo
df = pd.DataFrame({
    'nome': ['Ana', 'João', 'Maria', 'Pedro', None],
    'idade': [25, 30, None, 35, 40],
    'salario': [5000.0, 6000.0, 7000.0, None, 9000.0],
    'departamento': ['Vendas', 'TI', 'Vendas', 'TI', 'RH']
})

# Exibindo informações do DataFrame
df.info()

import pandas as pd

import numpy as np

# Criando um DataFrame de exemplo

df = pd.DataFrame({

'nome': ['Ana', 'João', 'Maria', 'Pedro', None],

'idade': [25, 30, None, 35, 40],

'salario': [5000.0, 6000.0, 7000.0, None, 9000.0],

'departamento': ['Vendas', 'TI', 'Vendas', 'TI', 'RH']

})

# Exibindo informações do DataFrame

df.info()

Saída esperada do código acima:

&lt;class 'pandas.core.frame.DataFrame'&gt;
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   nome          4 non-null      object 
 1   idade         4 non-null      float64
 2   salario       4 non-null      float64
 3   departamento  5 non-null      object 
dtypes: float64(2), object(2)
memory usage: 288.0+ bytes

RangeIndex: 5 entries, 0 to 4

Data columns (total 4 columns):

# Column Non-Null Count Dtype

--- ------ -------------- -----

0 nome 4 non-null object

1 idade 4 non-null float64

2 salario 4 non-null float64

3 departamento 5 non-null object

dtypes: float64(2), object(2)

memory usage: 288.0+ bytes

Informações Fornecidas pelo df.info()

Estrutura do DataFrame

A primeira parte da saída do info() mostra informações gerais sobre o DataFrame:

Informações Gerais:

Classe: Tipo do objeto (geralmente pandas DataFrame)
RangeIndex: Número de linhas e intervalo de índices
Data columns: Número total de colunas

Detalhes das Colunas:

Coluna: Nome de cada coluna
Non-Null Count: Contagem de valores não nulos
Dtype: Tipo de dados de cada coluna

Interpretação da Saída:

A saída do info() permite identificar rapidamente:

Valores faltantes (comparando Non-Null Count com o total de linhas)
Tipos de dados inadequados (ex: números armazenados como strings)
O tamanho total do DataFrame na memória

Parâmetros do df.info()

O método info() aceita vários parâmetros para personalizar sua saída:

Parâmetros Principais:

verbose: Se True, mostra todos os detalhes
buf: Buffer de escrita (útil para salvar a saída)
max_cols: Número máximo de colunas a mostrar
memory_usage: Especifica como mostrar o uso de memória
show_counts: Se True, mostra contagem de não nulos
null_counts: Se True, mostra contagem de nulos (obsoleto)

Exemplos de Uso:

# Mostrar informações de forma resumida
df.info(verbose=False)

# Mostrar uso detalhado de memória
df.info(memory_usage='deep')

# Salvar a saída em uma string
import io
buffer = io.StringIO()
df.info(buf=buffer)
info_str = buffer.getvalue()

# Mostrar informações de forma resumida

df.info(verbose=False)

# Mostrar uso detalhado de memória

df.info(memory_usage='deep')

# Salvar a saída em uma string

import io

buffer = io.StringIO()

df.info(buf=buffer)

info_str = buffer.getvalue()

Relação com Outras Funções do Pandas

O df.info() complementa outras funções de análise de dados do Pandas:

Enquanto df.describe() fornece estatísticas descritivas dos dados, df.info() foca na estrutura e metadados do DataFrame.

Para uma análise completa, é comum usar:

df.info() para entender a estrutura
df.describe() para estatísticas descritivas
df.head() para visualizar as primeiras linhas
df.isnull().sum() para contagem detalhada de valores nulos

Em R, as funções equivalentes para obter informações sobre a estrutura de dados são:

# Criando um data frame de exemplo em R
df <- data.frame(
  nome = c('Ana', 'João', 'Maria', 'Pedro', NA),
  idade = c(25, 30, NA, 35, 40),
  salario = c(5000.0, 6000.0, 7000.0, NA, 9000.0),
  departamento = c('Vendas', 'TI', 'Vendas', 'TI', 'RH')
)

# Informações sobre a estrutura do data frame
str(df)

# Resumo do data frame
summary(df)

# Visualizar as primeiras linhas
head(df)

# Criando um data frame de exemplo em R

df <- data.frame(

nome = c('Ana', 'João', 'Maria', 'Pedro', NA),

idade = c(25, 30, NA, 35, 40),

salario = c(5000.0, 6000.0, 7000.0, NA, 9000.0),

departamento = c('Vendas', 'TI', 'Vendas', 'TI', 'RH')

)

# Informações sobre a estrutura do data frame

str(df)

# Resumo do data frame

summary(df)

# Visualizar as primeiras linhas

head(df)

Quando e Como Usar df.info()

Análise Exploratória Inicial

Use info() como uma das primeiras etapas na análise de dados para entender a estrutura do DataFrame.

# Carregar dados de um arquivo
df = pd.read_csv('dados.csv')

# Primeira análise da estrutura
df.info()

# Carregar dados de um arquivo

df = pd.read_csv('dados.csv')

# Primeira análise da estrutura

df.info()

Identificação de Valores Faltantes

Use info() para identificar rapidamente colunas com valores missing.

# Verificar valores missing
df.info()

# Se a contagem de non-null for menor que o total de linhas,
# existem valores missing na coluna

# Verificar valores missing

df.info()

# Se a contagem de non-null for menor que o total de linhas,

# existem valores missing na coluna

Otimização de Memória

Use info() com memory_usage=’deep’ para analisar o uso de memória e otimizá-lo.

# Analisar uso detalhado de memória
df.info(memory_usage='deep')

# Otimizar tipos de dados para reduzir memória
df['coluna'] = df['coluna'].astype('category')  # Exemplo de otimização

# Analisar uso detalhado de memória

df.info(memory_usage='deep')

# Otimizar tipos de dados para reduzir memória

df['coluna'] = df['coluna'].astype('category') # Exemplo de otimização

Exemplo Prático Completo

Vamos explorar um exemplo prático de uso do df.info() em um conjunto de dados mais complexo:

import pandas as pd
import numpy as np

# Criando um DataFrame mais complexo
np.random.seed(42)  # Para reproducibilidade
dados = {
    'id': range(1, 101),
    'idade': np.random.randint(18, 70, 100),
    'salario': np.random.normal(5000, 1500, 100),
    'cidade': np.random.choice(['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', None], 100),
    'ativo': np.random.choice([True, False], 100),
    'data_cadastro': pd.date_range('2020-01-01', periods=100, freq='D')
}

df = pd.DataFrame(dados)

# Adicionando alguns valores missing
df.loc[::10, 'idade'] = None
df.loc[::15, 'salario'] = np.nan

# Analisando com info()
print("Análise completa com df.info():")
df.info()

print("\n\nAnálise resumida:")
df.info(verbose=False)

print("\n\nAnálise com uso detalhado de memória:")
df.info(memory_usage='deep')

import pandas as pd

import numpy as np

# Criando um DataFrame mais complexo

np.random.seed(42) # Para reproducibilidade

dados = {

'id': range(1, 101),

'idade': np.random.randint(18, 70, 100),

'salario': np.random.normal(5000, 1500, 100),

'cidade': np.random.choice(['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', None], 100),

'ativo': np.random.choice([True, False], 100),

'data_cadastro': pd.date_range('2020-01-01', periods=100, freq='D')

}

df = pd.DataFrame(dados)

# Adicionando alguns valores missing

df.loc[::10, 'idade'] = None

df.loc[::15, 'salario'] = np.nan

# Analisando com info()

print("Análise completa com df.info():")

df.info()

print("\n\nAnálise resumida:")

df.info(verbose=False)

print("\n\nAnálise com uso detalhado de memória:")

df.info(memory_usage='deep')

Em R, podemos realizar uma análise similar com:

# Criando um data frame complexo em R
set.seed(42)  # Para reproducibilidade
dados <- data.frame(
  id = 1:100,
  idade = sample(c(18:70, NA), 100, replace = TRUE),
  salario = rnorm(100, 5000, 1500),
  cidade = sample(c('São Paulo', 'Rio de Janeiro', 'Belo Horizonte', NA), 100, replace = TRUE),
  ativo = sample(c(TRUE, FALSE), 100, replace = TRUE),
  data_cadastro = seq.Date(as.Date('2020-01-01'), by = 'day', length.out = 100)
)

# Analisando a estrutura
str(dados)

# Resumo das variáveis
summary(dados)

# Verificar valores missing
colSums(is.na(dados))

# Criando um data frame complexo em R

set.seed(42) # Para reproducibilidade

dados <- data.frame(

id = 1:100,

idade = sample(c(18:70, NA), 100, replace = TRUE),

salario = rnorm(100, 5000, 1500),

cidade = sample(c('São Paulo', 'Rio de Janeiro', 'Belo Horizonte', NA), 100, replace = TRUE),

ativo = sample(c(TRUE, FALSE), 100, replace = TRUE),

data_cadastro = seq.Date(as.Date('2020-01-01'), by = 'day', length.out = 100)

)

# Analisando a estrutura

str(dados)

# Resumo das variáveis

summary(dados)

# Verificar valores missing

colSums(is.na(dados))

⚠️ Limitações e Considerações

Embora df.info() seja extremamente útil, é importante entender suas limitações:

Não mostra valores únicos ou distribuição de dados categóricos
Não fornece informações sobre correlações entre variáveis
Para DataFrames muito grandes, pode consumir tempo e memória consideráveis
Não substitui uma análise exploratória completa dos dados

Conclusão

O método df.info() é uma ferramenta essencial no fluxo de trabalho de análise de dados com Pandas. Ele fornece um resumo rápido e informativo sobre a estrutura de um DataFrame, permitindo identificar rapidamente problemas com tipos de dados, valores missing e uso de memória.

Lembre-se de que info() é apenas o ponto de partida para a análise de dados. Para uma compreensão completa, complemente essas informações com visualizações, estatísticas descritivas e análises mais profundas específicas do seu domínio de aplicação.

Referências

Documentação oficial do Pandas: DataFrame.info()
Pandas User Guide: Essential Basic Functionality
Real Python: The Pandas DataFrame

Análise Estatística Descritiva com df.describe() no Pandas

19/12/202520/09/2025 Por antonino

O método df.describe() é uma das funções mais úteis e frequentemente utilizadas na biblioteca Pandas para Python. Ele fornece um resumo estatístico rápido das colunas numéricas e de objeto em um DataFrame, permitindo uma compreensão rápida da distribuição e características dos dados.

O que é df.describe()?

O método describe() gera estatísticas descritivas que resumem a tendência central, dispersão e forma da distribuição de um conjunto de dados, excluindo valores NaN.

Por padrão, o método fornece:

Para dados numéricos: count, mean, std, min, quartis (25%, 50%, 75%) e max
Para dados categóricos/object: count, unique, top (valor mais frequente) e freq (frequência do top)

Exemplo básico de uso:

import pandas as pd
import numpy as np

# Criando um DataFrame de exemplo
df = pd.DataFrame({
    'idade': [25, 30, 35, 40, 45, 50, 55, 60, 65, 70],
    'salario': [5000, 6000, 7000, 8000, 9000, 10000, 11000, 12000, 13000, 14000],
    'departamento': ['Vendas', 'TI', 'Vendas', 'TI', 'RH', 'Vendas', 'TI', 'RH', 'Vendas', 'TI']
})

# Gerando estatísticas descritivas
estatisticas = df.describe()
print(estatisticas)

import pandas as pd

import numpy as np

# Criando um DataFrame de exemplo

df = pd.DataFrame({

'idade': [25, 30, 35, 40, 45, 50, 55, 60, 65, 70],

'salario': [5000, 6000, 7000, 8000, 9000, 10000, 11000, 12000, 13000, 14000],

'departamento': ['Vendas', 'TI', 'Vendas', 'TI', 'RH', 'Vendas', 'TI', 'RH', 'Vendas', 'TI']

})

# Gerando estatísticas descritivas

estatisticas = df.describe()

print(estatisticas)

Em R, a função equivalente seria summary() aplicada a um data frame:

# Criando um data frame de exemplo em R
df <- data.frame(
  idade = c(25, 30, 35, 40, 45, 50, 55, 60, 65, 70),
  salario = c(5000, 6000, 7000, 8000, 9000, 10000, 11000, 12000, 13000, 14000),
  departamento = c('Vendas', 'TI', 'Vendas', 'TI', 'RH', 'Vendas', 'TI', 'RH', 'Vendas', 'TI')
)

# Gerando estatísticas descritivas
estatisticas <- summary(df)
print(estatisticas)

# Criando um data frame de exemplo em R

df <- data.frame(

idade = c(25, 30, 35, 40, 45, 50, 55, 60, 65, 70),

salario = c(5000, 6000, 7000, 8000, 9000, 10000, 11000, 12000, 13000, 14000),

departamento = c('Vendas', 'TI', 'Vendas', 'TI', 'RH', 'Vendas', 'TI', 'RH', 'Vendas', 'TI')

)

# Gerando estatísticas descritivas

estatisticas <- summary(df)

print(estatisticas)

Estatísticas Fornecidas pelo describe()

Para Variáveis Numéricas

Para colunas numéricas, describe() retorna oito medidas estatísticas principais:

Medidas de Posição:

count: Quantidade de valores não nulos
mean: Média aritmética dos valores
min: Valor mínimo
max: Valor máximo

Medidas de Dispersão:

std: Desvio padrão (medida de dispersão)
25%: Primeiro quartil (Q1)
50%: Mediana (segundo quartil, Q2)
75%: Terceiro quartil (Q3)

Interpretação Matemática:

As medidas de posição e dispersão podem ser representadas matematicamente:

$\text{Média} (\mu) = \frac{1}{n}\sum_{i=1}^{n}x_i$ $\text{Desvio Padrão} (\sigma) = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_i – \mu)^2}$ $\text{Mediana} = \begin{cases} x_{\frac{n+1}{2}} & \text{se n é ímpar} \\ \frac{x_{\frac{n}{2}} + x_{\frac{n}{2}+1}}{2} & \text{se n é par} \end{cases}$

Para Variáveis Categóricas

Para colunas do tipo object (strings) ou categóricas, describe() retorna quatro medidas diferentes:

Medidas de Frequência:

count: Quantidade de valores não nulos
unique: Número de valores únicos

Medidas de Moda:

top: Valor mais frequente (moda)
freq: Frequência do valor mais comum

Exemplo com dados categóricos:

# Para incluir variáveis categóricas no describe()
estatisticas_categoricas = df.describe(include=['object'])
print(estatisticas_categoricas)

# Para incluir variáveis categóricas no describe()

estatisticas_categoricas = df.describe(include=['object'])

print(estatisticas_categoricas)

Em R, para obter estatísticas de variáveis categóricas, usamos table() ou funções específicas:

# Estatísticas para variáveis categóricas em R
table(df$departamento)
# Ou para uma análise mais detalhada
summary(df$departamento)

# Estatísticas para variáveis categóricas em R

table(df$departamento)

# Ou para uma análise mais detalhada

summary(df$departamento)

Relação entre as Medidas Estatísticas

As estatísticas fornecidas pelo describe() estão inter-relacionadas e fornecem uma visão abrangente da distribuição dos dados:

$\text{Intervalo Interquartil (IQR)} = Q_3 – Q_1$

O IQR é uma medida de dispersão robusta a outliers, diferentemente do desvio padrão.

Podemos detectar outliers usando a regra:

Outlier inferior < $Q_1$ - 1.5 IQR e

Outlier superior > $Q_3$ + 1.5 IQR

O coeficiente de variação (CV) é outra medida útil:

$CV = \frac{\sigma}{\mu} \times 100\%$

Que representa a dispersão relativa dos dados em relação à média.

Quando e Como Usar df.describe()

Análise Exploratória Inicial

Use describe() como uma das primeiras etapas na análise de dados para obter uma visão geral rápida das variáveis numéricas.

# Primeira análise dos dados
print(df.describe())

# Para incluir todas as colunas, inclusive não numéricas
print(df.describe(include='all'))

# Primeira análise dos dados

print(df.describe())

# Para incluir todas as colunas, inclusive não numéricas

print(df.describe(include='all'))

Identificação de Outliers

Use os quartis e valores min/max para identificar possíveis outliers nos dados.

# Identificando outliers com base no IQR
Q1 = df['coluna'].quantile(0.25)
Q3 = df['coluna'].quantile(0.75)
IQR = Q3 - Q1
limite_inferior = Q1 - 1.5 * IQR
limite_superior = Q3 + 1.5 * IQR

outliers = df[(df['coluna'] < limite_inferior) | (df['coluna'] > limite_superior)]

# Identificando outliers com base no IQR

Q1 = df['coluna'].quantile(0.25)

Q3 = df['coluna'].quantile(0.75)

IQR = Q3 - Q1

limite_inferior = Q1 - 1.5 * IQR

limite_superior = Q3 + 1.5 * IQR

outliers = df[(df['coluna'] < limite_inferior) | (df['coluna'] > limite_superior)]

Comparação entre Grupos

Use describe() em conjunto com groupby() para comparar estatísticas entre diferentes categorias.

# Estatísticas descritivas por grupo
estatisticas_por_departamento = df.groupby('departamento')['salario'].describe()
print(estatisticas_por_departamento)

# Estatísticas descritivas por grupo

estatisticas_por_departamento = df.groupby('departamento')['salario'].describe()

print(estatisticas_por_departamento)

Em R, usamos funções do pacote dplyr para operações similares:

library(dplyr)

# Estatísticas descritivas por grupo em R
estatisticas_por_departamento <- df %>%
  group_by(departamento) %>%
  summarize(
    media = mean(salario),
    desvio_padrao = sd(salario),
    mediana = median(salario),
    min = min(salario),
    max = max(salario)
  )
print(estatisticas_por_departamento)

library(dplyr)

# Estatísticas descritivas por grupo em R

estatisticas_por_departamento <- df %>%

group_by(departamento) %>%

summarize(

media = mean(salario),

desvio_padrao = sd(salario),

mediana = median(salario),

min = min(salario),

max = max(salario)

)

print(estatisticas_por_departamento)

Personalizando o df.describe()

O método describe() aceita vários parâmetros para personalizar sua saída:

Parâmetros Principais:

percentiles: Lista de percentis para incluir (padrão: [.25, .5, .75])
include: Tipos de dados a incluir (padrão: apenas numéricos)
exclude: Tipos de dados a excluir
datetime_is_numeric: Tratar datetime como numérico (padrão: True)

Exemplos de personalização:

# Incluindo percentis específicos
estatisticas_personalizadas = df.describe(percentiles=[.1, .2, .8, .9])

# Incluindo todos os tipos de dados
estatisticas_completas = df.describe(include='all')

# Excluindo tipos específicos
estatisticas_sem_object = df.describe(exclude=['object'])

# Para dados datetime
df_data = pd.DataFrame({
    'data': pd.date_range('2023-01-01', periods=10, freq='D'),
    'valor': range(10)
})
estatisticas_data = df_data.describe(datetime_is_numeric=True)

# Incluindo percentis específicos

estatisticas_personalizadas = df.describe(percentiles=[.1, .2, .8, .9])

# Incluindo todos os tipos de dados

estatisticas_completas = df.describe(include='all')

# Excluindo tipos específicos

estatisticas_sem_object = df.describe(exclude=['object'])

# Para dados datetime

df_data = pd.DataFrame({

'data': pd.date_range('2023-01-01', periods=10, freq='D'),

'valor': range(10)

})

estatisticas_data = df_data.describe(datetime_is_numeric=True)

⚠️ Limitações e Considerações

Embora describe() seja extremamente útil, é importante entender suas limitações:

Não mostra a assimetria (skewness) ou curtose da distribuição
Não fornece informações sobre missing values além do count
Para uma análise completa, é necessário complementar com outras técnicas
Pode ser enganoso para distribuições multimodais ou assimétricas

Conclusão

O método df.describe() é uma ferramenta poderosa para análise exploratória de dados em Python com Pandas. Ele fornece um resumo estatístico rápido que ajuda a entender a distribuição, tendência central e dispersão dos dados.

Lembre-se de que describe() é apenas o ponto de partida para a análise de dados. Para uma compreensão completa, complemente essas estatísticas com visualizações, testes de hipóteses e análises mais profundas específicas do seu domínio de aplicação.

Referências

Documentação oficial do Pandas: DataFrame.describe()
Real Python: Using Pandas describe()
Towards Data Science: Understanding Descriptive Statistics