Pandas na análise de dados

Panda em floresta de bambús

Biblioteca Pandas 

A biblioteca Pandas nos ajuda a ler diversos tipos de arquivos, trata-los, tirar redundâncias, resumi-los e visualiza-los em disversas formas.

No primeiro momento é possível que os dados do seu dataset venham com incompletos, registros nulos ou registros mal formatados.

  1. Utilize df.info() para entender onde temos valores nulos e valores não válidos. Exemplo de ‘valor não válido’ seria em uma informação na coluna altura de um funcionário onde encontramos o valor de 9.5 metros.  Fica claro neste caso que não temos uma pessoa de 9 metros e meio, portanto temos uma informação incorreta que deve ser descartada ou alterada.
  2. Utilize dropna() quando os valores de linhas com dados ausentes são irrelevantes. Ex.: Não impacta apagarmos 30 linhas de um dataset de 100.000 linhas.
  3. Utilize df.fillna(valor) quando você quer preservar agumas das linhas/colunas que tem valores nulos. Ex:. Vamos dizer que o dataset tenha 1% de registros com valores nulos na coluna salário, poderíamos subistituir por um valor de salário médio a fim de preservar as demais informações nestas linhas (registros). É importante sempre comentar e documentar esses tipos de abordagem.

Sintetizar as informações relevantes

  • Para visualizarmos melhor é importante aplicar filtros e agregar os dados. Exemplo de Filtro: Se o dataset se refere a um histórico de preço de combustível de todo o Brasil e nosso interesse de pesquisa é apenas no Rio de Janeiro podemos filtrar pelo RJ.
  • Quando trabalhamos com dados numéricos em escalas diferentes, é importante aplicar um processo conhecido como normalização. Basicamente é pegar dados que podem ser organizados em uma escala e transforma-los em números. Exemplo: Escala de urgência “urgente”,”media” e “baixa” pode ser normalizado pois existe uma ordem intrínseca, já no caso de cor “branca”, “vermelha” e “azul” não podemos fazer uma normalização pois não existe uma ordem intrínseca .

Os Dados ainda podem ser classificados como:

 

Dados primários

  • São aqueles coletados de primeira mão, ou seja, dados que ainda não foram publicados, autênticos, sem interferência humana.
  • Entre as fontes de dados primários, temos questionários e entrevistas.

Dados secundários

  • São aqueles dados que já foram publicados de alguma forma, ou seja, sofreram alguma interferência humana.
  • Entre as fontes de dados secundários, temos: livros e jornais.

 

Dados qualitativos

  • São dados não numéricos, em sua maioria, normalmente descritivos ou nominais. Apresentam-se, em geral, em formato de textos, sentenças ou rótulos.

Dados quantitativos

  • São os dados numéricos, que podem ser matematicamente computados. Essa categoria de dado mede diferentes escalas que podem ser nominais, ordinais, intervalares e proporcionais. Na maioria dos casos, esses dados resultam da medição de algum aspecto ou fenômeno.

 

Método de coleta dos dados:

  • Podemos coletar dados qualitativos por perguntas abertas e os métodos envolvidos para seu tratamento são grupos de foco, de discussão e entrevistas.
  • Podemos coletar dados quantitativos por surveys (Pesquisas/Questionários), as queries(Consultas a Bancos de Dados), o consumo de relatórios (Reports) e os scrapers (mineração de dados com bibliotecas BeautifulSoup e Scrapy)
  • As categorias de dados não são mutuamente exclusivas, pois é muito comum encontrar relatórios ou fazer entrevistas cujo resultado contenha tanto dados quantitativos e qualitativos.

 

Regulação de dados

Ainda podemos encontrar pontos fora da curva (outliers – muito maiores). Podemos remover os dados destoantes do conjunto ou fazermos uma regularização que é trazer um valor proporcional pela fórmula valor_observado/(valor_maximo – valor_mínimo) chegando a um valor entre 0 e 1.

Big Data, ETL, Data Warehouse e Business Inteligence

BigData

Big Data (BD)

Big Data refere-se a conjuntos de dados extremamente grandes (Petabyte ou superior) e complexos, que não podem ser processados por ferramentas tradicionais de banco de dados.

Exemplo de Big Data:  GOV.BR

Os dados de um Big Data podem ser:

  • Dados Estruturados – São armazenados de maneira organizada, e fáceis de serem processados e analisados. Exemplo.: Excel, CSV
  • Dados não estruturados – Não possuem uma estrutura predefinida. Geralmente utilizam o NoSQL. Exemplo: textuais (txt, pdf, docx,..), Multimídia ( jpg, png, mp3, wav,…), Dados Web (html), Outros Formatos (log, pptx,…)
  • Semiestruturados – Mescla as duas anteriores. Exemplo: XML, JSON.

Esses dados são caracterizados pelos 5 Vs:

  • Volume – Quantidade massiva de dados (ex.: redes sociais, sensores IoT, transações financeiras).
  • Velocidade – Dados gerados e processados em alta velocidade (ex.: transações em tempo real, streaming de vídeos).
  • Variedade – Dados estruturados (planilhas), semiestruturados (JSON, XML) e não estruturados (imagens, áudios, textos).
  • Veracidade – Confiabilidade e qualidade dos dados.
  • Valor – Capacidade de extrair insights úteis para decisões estratégicas.

 

Plataforma de Processamento Distribuído (ETL)

O SPARK é um ETL usado para  extrair, transformar e carregar grandes volumes de dados de fontes heterogêneas (SQL, NoSQL, arquivos) para um DW que pode ser processado em lote (processamento de grandes volumes de dados armazenados previamente. Ex.: csv’s, json’s, tabelas, sql) ou de forma distribuída (divisão do trabalho com processamento em paralelo entre computadores)

Data Warehouse (DW)

Um Data Warehouse (ou “armazém de dados”) é um sistema centralizado que armazena dados históricos de diferentes fontes dentro de uma organização, organizando-os para facilitar a análise e a geração de relatórios.

Ele é projetado para Business Intelligence (BI), permitindo que empresas tomem decisões baseadas em dados consolidados e confiáveis.

Principais Características do Data Warehouse

  1. Integração de Dados

    • Combina dados de múltiplas fontes (ERP, CRM, bancos de dados operacionais) em um formato padronizado.

  2. Orientado a Assuntos

    • Organiza dados por temas (ex.: vendas, clientes, finanças), não por processos operacionais.

  3. Não Volátil

    • Dados são apenas carregados e consultados, não modificados ou apagados (diferente de bancos transacionais).

  4. Temporal

    • Mantém histórico de dados para análise de tendências (ex.: comparação de vendas ano a ano).

  5. Otimizado para Consultas

    • Usa estruturas como star schema (tabelas fato e dimensões) para agilizar consultas complexas.

 

Data Marts (DM)

É uma parte de um DW focado em um departamento ou área específica.

  • Vantagens:

    • Performance: Consultas mais rápidas (menos dados para scanear).

    • Segurança: Controle de acesso por área (ex.: Financeiro não acessa dados de RH).

    • Simplicidade: Modelos de dados mais intuitivos para o time.

  • Exemplos de Data Marts:

    • Vendas: Dados de transações, clientes, regiões.

    • Marketing: Campanhas, leads, ROI de mídia.

    • RH: Folha de pagamento, desempenho de funcionários.

  • Tecnologias:

    • Os mesmos do DW (Redshift, BigQuery) ou soluções dedicadas (SQL Server Analysis Services).

 

Business Intelligence (BI)

O Business Intelligence (BI) é o processo de coletar, analisar e transformar dados em informações úteis para a TOMADAS DE DECISÕES.

 

Tipos de análises em BI:

  • Análise Diagnóstica (Por que aconteceu?)
    • Objetivo: Investigar causas raiz de eventos passados.
    • Técnicas: Drill-down, segmentação, correlação.
    • Exemplo: “A queda nas vendas ocorreu devido ao aumento de tarifas em julho de 2025.”
  • Análise Descritiva (O que aconteceu?)
    • Objetivo: Resumir dados históricos para entender padrões e tendências.
    • Exemplos: Relatórios, dashboards com KPIs, métricas de churn.
    • Ferramentas: SQL, Tableau, Power BI.
    • Exemplo: “As vendas caíram 10% no último trimestre.”
  • Análise Preditiva (O que pode acontecer?)
    • Objetivo: Prever futuros resultados com base em dados históricos.
    • Técnicas: Machine Learning, regressão, séries temporais.
    • Ferramentas: Python (scikit-learn), R, Azure ML.
    • Exemplo: “O modelo prevê uma queda de 15% nas vendas no próximo semestre se nada mudar.”
  • Análise Prescritiva (O que fazer?)
    • Objetivo: Recomendar ações para otimizar resultados.
    • Técnicas: Otimização, simulações, IA generativa.
    • Ferramentas: IBM Decision Optimization, Prescriptive Analytics.
    • Exemplo: “Recomenda-se diversificar ações considerando incertezas do mercado.”

Resumo:

Big Data (Dados de fontes externas e interna) -> Data Lake (repositório de dados brutos) -> ETL (dados processados) -> Data Warehouse (dados estruturados com dimensões) -> Business Intelligence (BI)

Tipos de fluxos:

 

Caso 1: Arquitetura Tradicional (ETL + DW)

Big Data (Json,CSV,API) → ETL (Apache Spark) → Data Warehouse → BI

  • Quando usar: Dados estruturados, necessidades de SQL rápido e governança rígida.

 

Caso 2: Arquitetura Moderna (ELT + Lakehouse)

Big Data (JSON, Imagens) → Data Lake (S3) → ELT (Spark) → Lakehouse (Delta Lake) → BI

  • Quando usar: Dados diversificados (ex.: imagens, JSON), flexibilidade para ML e análise exploratória

 

Caso 3: Streaming + DW

Streaming (Kafka) → Processamento em Tempo Real (Flink) → DW/Lake → BI/Alerta

  • Quando usar: Monitoramento contínuo (ex.: fraudes, IoT).

 

ETL não é o primeiro passo

O ETL é a ponte que move os dados de seus sistemas transacionais (fontes) para o modelo dimensional planejado (destino).

Para contruirmos o ETL (ponte) precisamos responde as seguintes perguntas:

  • De onde (quais sistemas fonte) você vai extrair os dados?
  • Como você vai transformar os dados? (Isso depende inteiramente de como suas tabelas de dimensões e fatos foram modeladas)
  • Para onde (qual modelo de tabelas) você vai carregar os dados?
Sem o destino claramente definido, a ponte não leva a lugar nenhum.

Os Quatro Passos Fundamentais

1. Estabelecer a Visão

Refere-se aos objetivos de negócio. Por que estamos construindo este data warehouse ou relatório?

Exemplos: Reduzir custos de estoque, entender o comportamento do cliente, aumentar a eficiência de campanhas de marketing.

2. Selecionar Área de Assunto

Um data warehouse completo é complexo demais para ser construído de uma vez. A metodologia mais comum é a construção incremental por áreas de assunto (data marts).

Exemplos: Vendas, Financeiro, Logística.

3. Modelagem Dimensional

Determinar, em nível de entidade, as dimensões e fatos:

  • Fatos: Eventos mensuráveis (verbos)
  • Dimensões: Contexto que cerca um fato (quem, o quê, onde, quando)
4. Desenvolver ETL

Somente após os passos anteriores é que se desenvolve a metodologia ETL:

  • Extract (Extrair)
  • Transform (Transformar)
  • Load (Carregar)

Exemplo Prático: Área de Assunto “Vendas”

Visão:

“Aumentar a receita por meio da análise do desempenho de vendas por categoria de produto e região.”

Área de Assunto Selecionada:

Vendas

Determinar Dimensões e Fatos (Modelagem Dimensional):

Tabela de Fato (o evento): Fato_Vendas

Métricas: Quantidade_Vendida, Valor_Venda, Custo_Unitário

Tabelas de Dimensão (o contexto):

  • Dim_Produto: (id_produto, nome_produto, categoria, subcategoria)
  • Dim_Cliente: (id_cliente, nome_cliente, cidade, estado, regiao)
  • Dim_Tempo: (id_data, data_completa, dia, mes, ano, trimestre)
  • Dim_Vendedor: (id_vendedor, nome_vendedor)

Desenvolver a Metodologia ETL (agora sim!):

Extrair

Identificar sistemas fonte (ERP, CRM) e extrair dados brutos das tabelas transacionais.

Transformar

Limpar, padronizar e estruturar os dados conforme o modelo dimensional definido.

Carregar

Inserir os dados transformados nas tabelas de destino (dimensões e fatos).

Conclusão

Tentar fazer o ETL sem o planejamento anterior seria como começar a assentar tijolos sem uma planta baixa. O resultado seria um caos total e inútil para atender à visão inicial. A modelagem dimensional adequada é fundamental para o sucesso de qualquer projeto de Business Intelligence e Data Warehousing.

Vídeo criando DataLake : YouTube