Arquivo de dataframe - Área de Trampo

Análise de Valores Únicos com df.unique() no Pandas

19/12/202520/09/2025 Por antonino

O método unique() é uma função essencial na biblioteca Pandas para Python que retorna os valores únicos de uma Series (coluna) em ordem de aparecimento. É extremamente útil para análise exploratória de dados, especialmente para variáveis categóricas.

O que é df.unique()?

O método unique() retorna um array NumPy com os valores únicos de uma Series (coluna) do Pandas. Os valores são retornados na ordem em que aparecem na Series, o que preserva a sequência original.

Características importantes:

Retorna apenas valores únicos, eliminando duplicatas
Preserva a ordem de aparecimento dos valores
Funciona apenas com Series (colunas individuais), não com DataFrames completos
Ignora valores NaN por padrão (dependendo da versão do Pandas)

Exemplo básico de uso:

import pandas as pd
import numpy as np

# Criando um DataFrame de exemplo
df = pd.DataFrame({
    'fruta': ['maçã', 'banana', 'laranja', 'maçã', 'uva', 'banana', 'maçã'],
    'quantidade': [5, 3, 2, 4, 6, 3, 2],
    'cor': ['vermelho', 'amarelo', 'laranja', 'vermelho', 'roxo', 'amarelo', 'verde']
})

# Obtendo valores únicos da coluna 'fruta'
valores_unicos = df['fruta'].unique()
print("Valores únicos na coluna 'fruta':")
print(valores_unicos)
print(f"Tipo de retorno: {type(valores_unicos)}")

import pandas as pd

import numpy as np

# Criando um DataFrame de exemplo

df = pd.DataFrame({

'fruta': ['maçã', 'banana', 'laranja', 'maçã', 'uva', 'banana', 'maçã'],

'quantidade': [5, 3, 2, 4, 6, 3, 2],

'cor': ['vermelho', 'amarelo', 'laranja', 'vermelho', 'roxo', 'amarelo', 'verde']

})

# Obtendo valores únicos da coluna 'fruta'

valores_unicos = df['fruta'].unique()

print("Valores únicos na coluna 'fruta':")

print(valores_unicos)

print(f"Tipo de retorno: {type(valores_unicos)}")

Saída esperada do código acima:

Valores únicos na coluna 'fruta':
['maçã' 'banana' 'laranja' 'uva']
Tipo de retorno: &lt;class 'numpy.ndarray'&gt;

Valores únicos na coluna 'fruta':

['maçã' 'banana' 'laranja' 'uva']

Tipo de retorno: <class 'numpy.ndarray'>

Comparação com Funções Similares

unique() vs value_counts()

Enquanto unique() retorna apenas os valores únicos, value_counts() retorna tanto os valores únicos quanto suas contagens:

unique():

Retorna array com valores únicos
Preserva ordem de aparecimento
Não mostra frequências
Mais rápido para apenas obter valores distintos

value_counts():

Retorna Series com valores únicos e contagens
Ordenado por frequência (padrão)
Mostra contagem de cada valor
Mais informativo para análise estatística

Exemplo comparativo:

# Usando unique()
valores_unicos = df['fruta'].unique()
print("unique():", valores_unicos)

# Usando value_counts()
contagem_valores = df['fruta'].value_counts()
print("\nvalue_counts():")
print(contagem_valores)

# Usando unique()

valores_unicos = df['fruta'].unique()

print("unique():", valores_unicos)

# Usando value_counts()

contagem_valores = df['fruta'].value_counts()

print("\nvalue_counts():")

print(contagem_valores)

Em R, as funções equivalentes são unique() e table():

# Criando um data frame de exemplo em R
df <- data.frame(
  fruta = c('maçã', 'banana', 'laranja', 'maçã', 'uva', 'banana', 'maçã'),
  quantidade = c(5, 3, 2, 4, 6, 3, 2),
  cor = c('vermelho', 'amarelo', 'laranja', 'vermelho', 'roxo', 'amarelo', 'verde')
)

# Usando unique() em R
valores_unicos <- unique(df$fruta)
print("Valores únicos:")
print(valores_unicos)

# Usando table() em R
contagem_valores <- table(df$fruta)
print("Contagem de valores:")
print(contagem_valores)

# Criando um data frame de exemplo em R

df <- data.frame(

fruta = c('maçã', 'banana', 'laranja', 'maçã', 'uva', 'banana', 'maçã'),

quantidade = c(5, 3, 2, 4, 6, 3, 2),

cor = c('vermelho', 'amarelo', 'laranja', 'vermelho', 'roxo', 'amarelo', 'verde')

)

# Usando unique() em R

valores_unicos <- unique(df$fruta)

print("Valores únicos:")

print(valores_unicos)

# Usando table() em R

contagem_valores <- table(df$fruta)

print("Contagem de valores:")

print(contagem_valores)

unique() vs nunique()

Enquanto unique() retorna os valores únicos, nunique() retorna apenas a contagem de valores únicos:

unique():

Retorna os valores únicos
Útil quando precisamos dos valores específicos
Permite iterar sobre os valores distintos

nunique():

Retorna apenas o número de valores únicos
Útil para estatísticas rápidas
Mais eficiente quando só precisamos da contagem

Exemplo comparativo:

# Usando unique() para obter os valores
valores_unicos = df['fruta'].unique()
print("Valores únicos:", valores_unicos)
print("Número de valores únicos:", len(valores_unicos))

# Usando nunique() para obter apenas a contagem
numero_unicos = df['fruta'].nunique()
print("Número de valores únicos (com nunique()):", numero_unicos)

# Usando unique() para obter os valores

valores_unicos = df['fruta'].unique()

print("Valores únicos:", valores_unicos)

print("Número de valores únicos:", len(valores_unicos))

# Usando nunique() para obter apenas a contagem

numero_unicos = df['fruta'].nunique()

print("Número de valores únicos (com nunique()):", numero_unicos)

Em R, podemos usar length(unique()) para obter o equivalente a nunique():

# Número de valores únicos em R
numero_unicos <- length(unique(df$fruta))
print(paste("Número de valores únicos:", numero_unicos))

# Número de valores únicos em R

numero_unicos <- length(unique(df$fruta))

print(paste("Número de valores únicos:", numero_unicos))

Aplicações Práticas do unique()

O método unique() é extremamente útil em diversas situações de análise de dados:

1. Análise de Variáveis Categóricas

Identificar todas as categorias presentes em uma variável:

# Analisando categorias em uma coluna
categorias = df['cor'].unique()
print("Cores disponíveis:", categorias)

# Analisando categorias em uma coluna

categorias = df['cor'].unique()

print("Cores disponíveis:", categorias)

2. Criação de Mapas de Valores

Usar os valores únicos para criar dicionários de mapeamento:

# Criando um mapeamento de valores
valores_unicos = df['fruta'].unique()
mapeamento = {valor: idx for idx, valor in enumerate(valores_unicos)}
print("Mapeamento:", mapeamento)

# Criando um mapeamento de valores

valores_unicos = df['fruta'].unique()

mapeamento = {valor: idx for idx, valor in enumerate(valores_unicos)}

print("Mapeamento:", mapeamento)

3. Filtragem de Dados

Usar valores únicos para filtrar o DataFrame:

# Filtrando para incluir apenas certos valores
valores_permitidos = ['maçã', 'uva']
df_filtrado = df[df['fruta'].isin(valores_permitidos)]

# Filtrando para incluir apenas certos valores

valores_permitidos = ['maçã', 'uva']

df_filtrado = df[df['fruta'].isin(valores_permitidos)]

Em R, aplicações similares com unique():

# Análise de categorias
categorias <- unique(df$cor)
print(paste("Cores disponíveis:", paste(categorias, collapse = ", ")))

# Filtragem de dados
valores_permitidos <- c('maçã', 'uva')
df_filtrado <- df[df$fruta %in% valores_permitidos, ]

# Análise de categorias

categorias <- unique(df$cor)

print(paste("Cores disponíveis:", paste(categorias, collapse = ", ")))

# Filtragem de dados

valores_permitidos <- c('maçã', 'uva')

df_filtrado <- df[df$fruta %in% valores_permitidos, ]

Quando Usar df.unique()

Análise Exploratória de Dados

Use unique() para entender rapidamente as categorias presentes em uma coluna.

# Explorando categorias em uma coluna
print("Departamentos únicos:", df['departamento'].unique())
print("Cargos únicos:", df['cargo'].unique())

# Explorando categorias em uma coluna

print("Departamentos únicos:", df['departamento'].unique())

print("Cargos únicos:", df['cargo'].unique())

Pré-processamento de Dados

Use unique() para identificar valores que precisam ser tratados antes da modelagem.

# Identificando valores problemáticos
valores_unicos = df['idade'].unique()
valores_estranhos = [v for v in valores_unicos if not isinstance(v, (int, float)) or v < 0 or v > 120]
print("Valores problemáticos na coluna 'idade':", valores_estranhos)

# Identificando valores problemáticos

valores_unicos = df['idade'].unique()

valores_estranhos = [v for v in valores_unicos if not isinstance(v, (int, float)) or v < 0 or v > 120]

print("Valores problemáticos na coluna 'idade':", valores_estranhos)

Criação de Variáveis Dummy

Use unique() para identificar todas as categorias necessárias para criar variáveis dummy.

# Preparando para one-hot encoding
categorias = df['categoria'].unique()
print("Categorias para encoding:", categorias)

# Preparando para one-hot encoding

categorias = df['categoria'].unique()

print("Categorias para encoding:", categorias)

Em R, uso similar para one-hot encoding:

# Preparando para criar variáveis dummy
categorias <- unique(df$categoria)
print(paste("Categorias para encoding:", paste(categorias, collapse = ", ")))

# Preparando para criar variáveis dummy

categorias <- unique(df$categoria)

print(paste("Categorias para encoding:", paste(categorias, collapse = ", ")))

Exemplo Prático Completo

Vamos explorar um exemplo prático de uso do unique() em um conjunto de dados mais complexo:

import pandas as pd
import numpy as np

# Criando um DataFrame mais complexo com dados missing
np.random.seed(42)
dados = {
    'id': range(1, 21),
    'idade': np.random.randint(18, 70, 20),
    'cidade': np.random.choice(['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Curitiba', None], 20),
    'nível_educacional': np.random.choice(['Fundamental', 'Médio', 'Superior', 'Pós-graduação', None], 20),
    'salário': np.random.normal(5000, 2000, 20)
}

df = pd.DataFrame(dados)

# Adicionando alguns outliers no salário
df.loc[::5, 'salário'] = df.loc[::5, 'salário'] * 3

print("Primeiras linhas do DataFrame:")
print(df.head())

print("\n" + "="*50)
print("ANÁLISE COM unique()")
print("="*50)

# Analisando valores únicos em cada coluna categórica
print("\n1. Valores únicos na coluna 'cidade':")
cidades_unicas = df['cidade'].unique()
print(cidades_unicas)

print("\n2. Valores únicos na coluna 'nível_educacional':")
niveis_unicos = df['nível_educacional'].unique()
print(niveis_unicos)

print("\n3. Número de valores únicos por coluna:")
for coluna in df.columns:
    if df[coluna].dtype == 'object' or pd.api.types.is_categorical_dtype(df[coluna]):
        n_unicos = df[coluna].nunique()
        print(f"{coluna}: {n_unicos} valores únicos")

print("\n4. Valores únicos na coluna numérica 'idade':")
idades_unicas = df['idade'].unique()
print(f"Idades únicas: {np.sort(idades_unicas)}")
print(f"Range de idades: {idades_unicas.min()} - {idades_unicas.max()}")

import pandas as pd

import numpy as np

# Criando um DataFrame mais complexo com dados missing

np.random.seed(42)

dados = {

'id': range(1, 21),

'idade': np.random.randint(18, 70, 20),

'cidade': np.random.choice(['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Curitiba', None], 20),

'nível_educacional': np.random.choice(['Fundamental', 'Médio', 'Superior', 'Pós-graduação', None], 20),

'salário': np.random.normal(5000, 2000, 20)

}

df = pd.DataFrame(dados)

# Adicionando alguns outliers no salário

df.loc[::5, 'salário'] = df.loc[::5, 'salário'] * 3

print("Primeiras linhas do DataFrame:")

print(df.head())

print("\n" + "="*50)

print("ANÁLISE COM unique()")

print("="*50)

# Analisando valores únicos em cada coluna categórica

print("\n1. Valores únicos na coluna 'cidade':")

cidades_unicas = df['cidade'].unique()

print(cidades_unicas)

print("\n2. Valores únicos na coluna 'nível_educacional':")

niveis_unicos = df['nível_educacional'].unique()

print(niveis_unicos)

print("\n3. Número de valores únicos por coluna:")

for coluna in df.columns:

if df[coluna].dtype == 'object' or pd.api.types.is_categorical_dtype(df[coluna]):

n_unicos = df[coluna].nunique()

print(f"{coluna}: {n_unicos} valores únicos")

print("\n4. Valores únicos na coluna numérica 'idade':")

idades_unicas = df['idade'].unique()

print(f"Idades únicas: {np.sort(idades_unicas)}")

print(f"Range de idades: {idades_unicas.min()} - {idades_unicas.max()}")

Em R, podemos realizar uma análise similar com:

set.seed(42)
dados <- data.frame(
  id = 1:20,
  idade = sample(18:70, 20, replace = TRUE),
  cidade = sample(c('São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Curitiba', NA), 20, replace = TRUE),
  nivel_educacional = sample(c('Fundamental', 'Médio', 'Superior', 'Pós-graduação', NA), 20, replace = TRUE),
  salario = rnorm(20, 5000, 2000)
)

# Adicionando outliers
dados$salario[seq(1, 20, by = 5)] <- dados$salario[seq(1, 20, by = 5)] * 3

print("Primeiras linhas do data frame:")
print(head(dados))

cat("\n", rep("=", 50), "\n")
cat("ANÁLISE COM unique()\n")
cat(rep("=", 50), "\n")

# Analisando valores únicos
cat("\n1. Valores únicos na coluna 'cidade':\n")
cidades_unicas <- unique(dados$cidade)
print(cidades_unicas)

cat("\n2. Valores únicos na coluna 'nível_educacional':\n")
niveis_unicos <- unique(dados$nivel_educacional)
print(niveis_unicos)

cat("\n3. Número de valores únicos por coluna:\n")
for (coluna in names(dados)) {
  if (is.character(dados[[coluna]]) || is.factor(dados[[coluna]])) {
    n_unicos <- length(unique(dados[[coluna]]))
    cat(paste0(coluna, ": ", n_unicos, " valores únicos\n"))
  }
}

cat("\n4. Valores únicos na coluna numérica 'idade':\n")
idades_unicas <- unique(dados$idade)
cat(paste("Idades únicas:", paste(sort(idades_unicas), collapse = ", "), "\n"))
cat(paste("Range de idades:", min(idades_unicas, na.rm = TRUE), "-", max(idades_unicas, na.rm = TRUE), "\n"))

set.seed(42)

dados <- data.frame(

id = 1:20,

idade = sample(18:70, 20, replace = TRUE),

cidade = sample(c('São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Curitiba', NA), 20, replace = TRUE),

nivel_educacional = sample(c('Fundamental', 'Médio', 'Superior', 'Pós-graduação', NA), 20, replace = TRUE),

salario = rnorm(20, 5000, 2000)

)

# Adicionando outliers

dados$salario[seq(1, 20, by = 5)] <- dados$salario[seq(1, 20, by = 5)] * 3

print("Primeiras linhas do data frame:")

print(head(dados))

cat("\n", rep("=", 50), "\n")

cat("ANÁLISE COM unique()\n")

cat(rep("=", 50), "\n")

# Analisando valores únicos

cat("\n1. Valores únicos na coluna 'cidade':\n")

cidades_unicas <- unique(dados$cidade)

print(cidades_unicas)

cat("\n2. Valores únicos na coluna 'nível_educacional':\n")

niveis_unicos <- unique(dados$nivel_educacional)

print(niveis_unicos)

cat("\n3. Número de valores únicos por coluna:\n")

for (coluna in names(dados)) {

if (is.character(dados[[coluna]]) || is.factor(dados[[coluna]])) {

n_unicos <- length(unique(dados[[coluna]]))

cat(paste0(coluna, ": ", n_unicos, " valores únicos\n"))

}

cat("\n4. Valores únicos na coluna numérica 'idade':\n")

idades_unicas <- unique(dados$idade)

cat(paste("Idades únicas:", paste(sort(idades_unicas), collapse = ", "), "\n"))

cat(paste("Range de idades:", min(idades_unicas, na.rm = TRUE), "-", max(idades_unicas, na.rm = TRUE), "\n"))

⚠️ Considerações Importantes

Ao usar unique(), esteja ciente das seguintes considerações:

unique() não funciona diretamente em DataFrames completos, apenas em Series
Valores NaN são tratados de forma diferente dependendo da versão do Pandas
Para colunas com muitos valores únicos, o resultado pode ser muito grande
A ordem dos valores é preservada conforme aparecem nos dados, não em ordem alfabética/numerica
Para obter valores únicos ordenados, use sorted(df['coluna'].unique())

Conclusão

O método df.unique() é uma ferramenta simples mas poderosa para análise exploratória de dados em Pandas. Ele fornece uma maneira rápida de identificar valores distintos em uma coluna, sendo especialmente útil para variáveis categóricas.

Lembre-se de que unique() é mais eficiente quando você precisa dos valores específicos, enquanto value_counts() é melhor quando você precisa tanto dos valores quanto de suas frequências, e nunique() é mais adequado quando você precisa apenas da contagem de valores únicos.

Referências

Documentação oficial do Pandas: Series.unique()
Pandas User Guide: Working with Unique Values
Real Python: Finding Unique Values in Pandas

Análise de Estrutura de Dados com df.info() no Pandas

19/12/202520/09/2025 Por antonino

O método df.info() é uma ferramenta essencial na biblioteca Pandas para Python que fornece um resumo conciso sobre um DataFrame. Ele é especialmente útil para entender a estrutura dos dados, tipos de colunas e valores não nulos.

O que é df.info()?

O método info() exibe um resumo informativo sobre um DataFrame, incluindo:

O número de entradas (linhas) no DataFrame
O número de colunas
Os nomes das colunas e seus tipos de dados
O número de valores não nulos em cada coluna
O uso de memória pelo DataFrame

Exemplo básico de uso:

import pandas as pd
import numpy as np

# Criando um DataFrame de exemplo
df = pd.DataFrame({
    'nome': ['Ana', 'João', 'Maria', 'Pedro', None],
    'idade': [25, 30, None, 35, 40],
    'salario': [5000.0, 6000.0, 7000.0, None, 9000.0],
    'departamento': ['Vendas', 'TI', 'Vendas', 'TI', 'RH']
})

# Exibindo informações do DataFrame
df.info()

import pandas as pd

import numpy as np

# Criando um DataFrame de exemplo

df = pd.DataFrame({

'nome': ['Ana', 'João', 'Maria', 'Pedro', None],

'idade': [25, 30, None, 35, 40],

'salario': [5000.0, 6000.0, 7000.0, None, 9000.0],

'departamento': ['Vendas', 'TI', 'Vendas', 'TI', 'RH']

})

# Exibindo informações do DataFrame

df.info()

Saída esperada do código acima:

&lt;class 'pandas.core.frame.DataFrame'&gt;
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   nome          4 non-null      object 
 1   idade         4 non-null      float64
 2   salario       4 non-null      float64
 3   departamento  5 non-null      object 
dtypes: float64(2), object(2)
memory usage: 288.0+ bytes

RangeIndex: 5 entries, 0 to 4

Data columns (total 4 columns):

# Column Non-Null Count Dtype

--- ------ -------------- -----

0 nome 4 non-null object

1 idade 4 non-null float64

2 salario 4 non-null float64

3 departamento 5 non-null object

dtypes: float64(2), object(2)

memory usage: 288.0+ bytes

Informações Fornecidas pelo df.info()

Estrutura do DataFrame

A primeira parte da saída do info() mostra informações gerais sobre o DataFrame:

Informações Gerais:

Classe: Tipo do objeto (geralmente pandas DataFrame)
RangeIndex: Número de linhas e intervalo de índices
Data columns: Número total de colunas

Detalhes das Colunas:

Coluna: Nome de cada coluna
Non-Null Count: Contagem de valores não nulos
Dtype: Tipo de dados de cada coluna

Interpretação da Saída:

A saída do info() permite identificar rapidamente:

Valores faltantes (comparando Non-Null Count com o total de linhas)
Tipos de dados inadequados (ex: números armazenados como strings)
O tamanho total do DataFrame na memória

Parâmetros do df.info()

O método info() aceita vários parâmetros para personalizar sua saída:

Parâmetros Principais:

verbose: Se True, mostra todos os detalhes
buf: Buffer de escrita (útil para salvar a saída)
max_cols: Número máximo de colunas a mostrar
memory_usage: Especifica como mostrar o uso de memória
show_counts: Se True, mostra contagem de não nulos
null_counts: Se True, mostra contagem de nulos (obsoleto)

Exemplos de Uso:

# Mostrar informações de forma resumida
df.info(verbose=False)

# Mostrar uso detalhado de memória
df.info(memory_usage='deep')

# Salvar a saída em uma string
import io
buffer = io.StringIO()
df.info(buf=buffer)
info_str = buffer.getvalue()

# Mostrar informações de forma resumida

df.info(verbose=False)

# Mostrar uso detalhado de memória

df.info(memory_usage='deep')

# Salvar a saída em uma string

import io

buffer = io.StringIO()

df.info(buf=buffer)

info_str = buffer.getvalue()

Relação com Outras Funções do Pandas

O df.info() complementa outras funções de análise de dados do Pandas:

Enquanto df.describe() fornece estatísticas descritivas dos dados, df.info() foca na estrutura e metadados do DataFrame.

Para uma análise completa, é comum usar:

df.info() para entender a estrutura
df.describe() para estatísticas descritivas
df.head() para visualizar as primeiras linhas
df.isnull().sum() para contagem detalhada de valores nulos

Em R, as funções equivalentes para obter informações sobre a estrutura de dados são:

# Criando um data frame de exemplo em R
df <- data.frame(
  nome = c('Ana', 'João', 'Maria', 'Pedro', NA),
  idade = c(25, 30, NA, 35, 40),
  salario = c(5000.0, 6000.0, 7000.0, NA, 9000.0),
  departamento = c('Vendas', 'TI', 'Vendas', 'TI', 'RH')
)

# Informações sobre a estrutura do data frame
str(df)

# Resumo do data frame
summary(df)

# Visualizar as primeiras linhas
head(df)

# Criando um data frame de exemplo em R

df <- data.frame(

nome = c('Ana', 'João', 'Maria', 'Pedro', NA),

idade = c(25, 30, NA, 35, 40),

salario = c(5000.0, 6000.0, 7000.0, NA, 9000.0),

departamento = c('Vendas', 'TI', 'Vendas', 'TI', 'RH')

)

# Informações sobre a estrutura do data frame

str(df)

# Resumo do data frame

summary(df)

# Visualizar as primeiras linhas

head(df)

Quando e Como Usar df.info()

Análise Exploratória Inicial

Use info() como uma das primeiras etapas na análise de dados para entender a estrutura do DataFrame.

# Carregar dados de um arquivo
df = pd.read_csv('dados.csv')

# Primeira análise da estrutura
df.info()

# Carregar dados de um arquivo

df = pd.read_csv('dados.csv')

# Primeira análise da estrutura

df.info()

Identificação de Valores Faltantes

Use info() para identificar rapidamente colunas com valores missing.

# Verificar valores missing
df.info()

# Se a contagem de non-null for menor que o total de linhas,
# existem valores missing na coluna

# Verificar valores missing

df.info()

# Se a contagem de non-null for menor que o total de linhas,

# existem valores missing na coluna

Otimização de Memória

Use info() com memory_usage=’deep’ para analisar o uso de memória e otimizá-lo.

# Analisar uso detalhado de memória
df.info(memory_usage='deep')

# Otimizar tipos de dados para reduzir memória
df['coluna'] = df['coluna'].astype('category')  # Exemplo de otimização

# Analisar uso detalhado de memória

df.info(memory_usage='deep')

# Otimizar tipos de dados para reduzir memória

df['coluna'] = df['coluna'].astype('category') # Exemplo de otimização

Exemplo Prático Completo

Vamos explorar um exemplo prático de uso do df.info() em um conjunto de dados mais complexo:

import pandas as pd
import numpy as np

# Criando um DataFrame mais complexo
np.random.seed(42)  # Para reproducibilidade
dados = {
    'id': range(1, 101),
    'idade': np.random.randint(18, 70, 100),
    'salario': np.random.normal(5000, 1500, 100),
    'cidade': np.random.choice(['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', None], 100),
    'ativo': np.random.choice([True, False], 100),
    'data_cadastro': pd.date_range('2020-01-01', periods=100, freq='D')
}

df = pd.DataFrame(dados)

# Adicionando alguns valores missing
df.loc[::10, 'idade'] = None
df.loc[::15, 'salario'] = np.nan

# Analisando com info()
print("Análise completa com df.info():")
df.info()

print("\n\nAnálise resumida:")
df.info(verbose=False)

print("\n\nAnálise com uso detalhado de memória:")
df.info(memory_usage='deep')

import pandas as pd

import numpy as np

# Criando um DataFrame mais complexo

np.random.seed(42) # Para reproducibilidade

dados = {

'id': range(1, 101),

'idade': np.random.randint(18, 70, 100),

'salario': np.random.normal(5000, 1500, 100),

'cidade': np.random.choice(['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', None], 100),

'ativo': np.random.choice([True, False], 100),

'data_cadastro': pd.date_range('2020-01-01', periods=100, freq='D')

}

df = pd.DataFrame(dados)

# Adicionando alguns valores missing

df.loc[::10, 'idade'] = None

df.loc[::15, 'salario'] = np.nan

# Analisando com info()

print("Análise completa com df.info():")

df.info()

print("\n\nAnálise resumida:")

df.info(verbose=False)

print("\n\nAnálise com uso detalhado de memória:")

df.info(memory_usage='deep')

Em R, podemos realizar uma análise similar com:

# Criando um data frame complexo em R
set.seed(42)  # Para reproducibilidade
dados <- data.frame(
  id = 1:100,
  idade = sample(c(18:70, NA), 100, replace = TRUE),
  salario = rnorm(100, 5000, 1500),
  cidade = sample(c('São Paulo', 'Rio de Janeiro', 'Belo Horizonte', NA), 100, replace = TRUE),
  ativo = sample(c(TRUE, FALSE), 100, replace = TRUE),
  data_cadastro = seq.Date(as.Date('2020-01-01'), by = 'day', length.out = 100)
)

# Analisando a estrutura
str(dados)

# Resumo das variáveis
summary(dados)

# Verificar valores missing
colSums(is.na(dados))

# Criando um data frame complexo em R

set.seed(42) # Para reproducibilidade

dados <- data.frame(

id = 1:100,

idade = sample(c(18:70, NA), 100, replace = TRUE),

salario = rnorm(100, 5000, 1500),

cidade = sample(c('São Paulo', 'Rio de Janeiro', 'Belo Horizonte', NA), 100, replace = TRUE),

ativo = sample(c(TRUE, FALSE), 100, replace = TRUE),

data_cadastro = seq.Date(as.Date('2020-01-01'), by = 'day', length.out = 100)

)

# Analisando a estrutura

str(dados)

# Resumo das variáveis

summary(dados)

# Verificar valores missing

colSums(is.na(dados))

⚠️ Limitações e Considerações

Embora df.info() seja extremamente útil, é importante entender suas limitações:

Não mostra valores únicos ou distribuição de dados categóricos
Não fornece informações sobre correlações entre variáveis
Para DataFrames muito grandes, pode consumir tempo e memória consideráveis
Não substitui uma análise exploratória completa dos dados

Conclusão

O método df.info() é uma ferramenta essencial no fluxo de trabalho de análise de dados com Pandas. Ele fornece um resumo rápido e informativo sobre a estrutura de um DataFrame, permitindo identificar rapidamente problemas com tipos de dados, valores missing e uso de memória.

Lembre-se de que info() é apenas o ponto de partida para a análise de dados. Para uma compreensão completa, complemente essas informações com visualizações, estatísticas descritivas e análises mais profundas específicas do seu domínio de aplicação.

Referências

Documentação oficial do Pandas: DataFrame.info()
Pandas User Guide: Essential Basic Functionality
Real Python: The Pandas DataFrame