Big Data, ETL, Data Warehouse e Business Inteligence

Big Data (BD)

Big Data refere-se a conjuntos de dados extremamente grandes (Petabyte ou superior) e complexos, que não podem ser processados por ferramentas tradicionais de banco de dados.

Exemplo de Big Data:  GOV.BR

Os dados de um Big Data podem ser:

  • Dados Estruturados – São armazenados de maneira organizada, e fáceis de serem processados e analisados. Exemplo.: Excel, CSV
  • Dados não estruturados – Não possuem uma estrutura predefinida. Geralmente utilizam o NoSQL. Exemplo: textuais (txt, pdf, docx,..), Multimídia ( jpg, png, mp3, wav,…), Dados Web (html), Outros Formatos (log, pptx,…)
  • Semiestruturados – Mescla as duas anteriores. Exemplo: XML, JSON.

Esses dados são caracterizados pelos 5 Vs:

  • Volume – Quantidade massiva de dados (ex.: redes sociais, sensores IoT, transações financeiras).
  • Velocidade – Dados gerados e processados em alta velocidade (ex.: transações em tempo real, streaming de vídeos).
  • Variedade – Dados estruturados (planilhas), semiestruturados (JSON, XML) e não estruturados (imagens, áudios, textos).
  • Veracidade – Confiabilidade e qualidade dos dados.
  • Valor – Capacidade de extrair insights úteis para decisões estratégicas.

 

Plataforma de Processamento Distribuído (ETL)

O SPARK é um ETL usado para  extrair, transformar e carregar grandes volumes de dados de fontes heterogêneas (SQL, NoSQL, arquivos) para um DW que pode ser processado em lote (processamento de grandes volumes de dados armazenados previamente. Ex.: csv’s, json’s, tabelas, sql) ou de forma distribuída (divisão do trabalho com processamento em paralelo entre computadores)

Data Warehouse (DW)

Um Data Warehouse (ou “armazém de dados”) é um sistema centralizado que armazena dados históricos de diferentes fontes dentro de uma organização, organizando-os para facilitar a análise e a geração de relatórios.

Ele é projetado para Business Intelligence (BI), permitindo que empresas tomem decisões baseadas em dados consolidados e confiáveis.

Principais Características do Data Warehouse

  1. Integração de Dados

    • Combina dados de múltiplas fontes (ERP, CRM, bancos de dados operacionais) em um formato padronizado.

  2. Orientado a Assuntos

    • Organiza dados por temas (ex.: vendas, clientes, finanças), não por processos operacionais.

  3. Não Volátil

    • Dados são apenas carregados e consultados, não modificados ou apagados (diferente de bancos transacionais).

  4. Temporal

    • Mantém histórico de dados para análise de tendências (ex.: comparação de vendas ano a ano).

  5. Otimizado para Consultas

    • Usa estruturas como star schema (tabelas fato e dimensões) para agilizar consultas complexas.

 

Data Marts (DM)

É uma parte de um DW focado em um departamento ou área específica.

  • Vantagens:

    • Performance: Consultas mais rápidas (menos dados para scanear).

    • Segurança: Controle de acesso por área (ex.: Financeiro não acessa dados de RH).

    • Simplicidade: Modelos de dados mais intuitivos para o time.

  • Exemplos de Data Marts:

    • Vendas: Dados de transações, clientes, regiões.

    • Marketing: Campanhas, leads, ROI de mídia.

    • RH: Folha de pagamento, desempenho de funcionários.

  • Tecnologias:

    • Os mesmos do DW (Redshift, BigQuery) ou soluções dedicadas (SQL Server Analysis Services).

 

Business Intelligence (BI)

O Business Intelligence (BI) é o processo de coletar, analisar e transformar dados em informações úteis para a TOMADAS DE DECISÕES.

 

Tipos de análises em BI:

  • Análise Diagnóstica (Por que aconteceu?)
    • Objetivo: Investigar causas raiz de eventos passados.
    • Técnicas: Drill-down, segmentação, correlação.
    • Exemplo: “A queda nas vendas ocorreu devido ao aumento de tarifas em julho de 2025.”
  • Análise Descritiva (O que aconteceu?)
    • Objetivo: Resumir dados históricos para entender padrões e tendências.
    • Exemplos: Relatórios, dashboards com KPIs, métricas de churn.
    • Ferramentas: SQL, Tableau, Power BI.
    • Exemplo: “As vendas caíram 10% no último trimestre.”
  • Análise Preditiva (O que pode acontecer?)
    • Objetivo: Prever futuros resultados com base em dados históricos.
    • Técnicas: Machine Learning, regressão, séries temporais.
    • Ferramentas: Python (scikit-learn), R, Azure ML.
    • Exemplo: “O modelo prevê uma queda de 15% nas vendas no próximo semestre se nada mudar.”
  • Análise Prescritiva (O que fazer?)
    • Objetivo: Recomendar ações para otimizar resultados.
    • Técnicas: Otimização, simulações, IA generativa.
    • Ferramentas: IBM Decision Optimization, Prescriptive Analytics.
    • Exemplo: “Recomenda-se diversificar ações considerando incertezas do mercado.”

Resumo:

Big Data (Dados de fontes externas e interna) -> Data Lake (repositório de dados brutos) -> ETL (dados processados) -> Data Warehouse (dados estruturados com dimensões) -> Business Intelligence (BI)

Tipos de fluxos:

 

Caso 1: Arquitetura Tradicional (ETL + DW)

Big Data (Json,CSV,API) → ETL (Apache Spark) → Data Warehouse → BI

  • Quando usar: Dados estruturados, necessidades de SQL rápido e governança rígida.

 

Caso 2: Arquitetura Moderna (ELT + Lakehouse)

Big Data (JSON, Imagens) → Data Lake (S3) → ELT (Spark) → Lakehouse (Delta Lake) → BI

  • Quando usar: Dados diversificados (ex.: imagens, JSON), flexibilidade para ML e análise exploratória

 

Caso 3: Streaming + DW

Streaming (Kafka) → Processamento em Tempo Real (Flink) → DW/Lake → BI/Alerta

  • Quando usar: Monitoramento contínuo (ex.: fraudes, IoT).

 

ETL não é o primeiro passo

O ETL é a ponte que move os dados de seus sistemas transacionais (fontes) para o modelo dimensional planejado (destino).

Para contruirmos o ETL (ponte) precisamos responde as seguintes perguntas:

  • De onde (quais sistemas fonte) você vai extrair os dados?
  • Como você vai transformar os dados? (Isso depende inteiramente de como suas tabelas de dimensões e fatos foram modeladas)
  • Para onde (qual modelo de tabelas) você vai carregar os dados?
Sem o destino claramente definido, a ponte não leva a lugar nenhum.

Os Quatro Passos Fundamentais

1. Estabelecer a Visão

Refere-se aos objetivos de negócio. Por que estamos construindo este data warehouse ou relatório?

Exemplos: Reduzir custos de estoque, entender o comportamento do cliente, aumentar a eficiência de campanhas de marketing.

2. Selecionar Área de Assunto

Um data warehouse completo é complexo demais para ser construído de uma vez. A metodologia mais comum é a construção incremental por áreas de assunto (data marts).

Exemplos: Vendas, Financeiro, Logística.

3. Modelagem Dimensional

Determinar, em nível de entidade, as dimensões e fatos:

  • Fatos: Eventos mensuráveis (verbos)
  • Dimensões: Contexto que cerca um fato (quem, o quê, onde, quando)
4. Desenvolver ETL

Somente após os passos anteriores é que se desenvolve a metodologia ETL:

  • Extract (Extrair)
  • Transform (Transformar)
  • Load (Carregar)

Exemplo Prático: Área de Assunto “Vendas”

Visão:

“Aumentar a receita por meio da análise do desempenho de vendas por categoria de produto e região.”

Área de Assunto Selecionada:

Vendas

Determinar Dimensões e Fatos (Modelagem Dimensional):

Tabela de Fato (o evento): Fato_Vendas

Métricas: Quantidade_Vendida, Valor_Venda, Custo_Unitário

Tabelas de Dimensão (o contexto):

  • Dim_Produto: (id_produto, nome_produto, categoria, subcategoria)
  • Dim_Cliente: (id_cliente, nome_cliente, cidade, estado, regiao)
  • Dim_Tempo: (id_data, data_completa, dia, mes, ano, trimestre)
  • Dim_Vendedor: (id_vendedor, nome_vendedor)

Desenvolver a Metodologia ETL (agora sim!):

Extrair

Identificar sistemas fonte (ERP, CRM) e extrair dados brutos das tabelas transacionais.

Transformar

Limpar, padronizar e estruturar os dados conforme o modelo dimensional definido.

Carregar

Inserir os dados transformados nas tabelas de destino (dimensões e fatos).

Conclusão

Tentar fazer o ETL sem o planejamento anterior seria como começar a assentar tijolos sem uma planta baixa. O resultado seria um caos total e inútil para atender à visão inicial. A modelagem dimensional adequada é fundamental para o sucesso de qualquer projeto de Business Intelligence e Data Warehousing.

Vídeo criando DataLake : YouTube