Big Data (BD)

Big Data refere-se a conjuntos de dados extremamente grandes (Petabyte ou superior) e complexos, que não podem ser processados por ferramentas tradicionais de banco de dados.

Exemplo de Big Data: GOV.BR

Os dados de um Big Data podem ser:

Dados Estruturados – São armazenados de maneira organizada, e fáceis de serem processados e analisados. Exemplo.: Excel, CSV
Dados não estruturados – Não possuem uma estrutura predefinida. Geralmente utilizam o NoSQL. Exemplo: textuais (txt, pdf, docx,..), Multimídia ( jpg, png, mp3, wav,…), Dados Web (html), Outros Formatos (log, pptx,…)
Semiestruturados – Mescla as duas anteriores. Exemplo: XML, JSON.

Esses dados são caracterizados pelos 5 Vs:

Volume – Quantidade massiva de dados (ex.: redes sociais, sensores IoT, transações financeiras).
Velocidade – Dados gerados e processados em alta velocidade (ex.: transações em tempo real, streaming de vídeos).
Variedade – Dados estruturados (planilhas), semiestruturados (JSON, XML) e não estruturados (imagens, áudios, textos).
Veracidade – Confiabilidade e qualidade dos dados.
Valor – Capacidade de extrair insights úteis para decisões estratégicas.

Plataforma de Processamento Distribuído (ETL)

O SPARK é um ETL usado para extrair, transformar e carregar grandes volumes de dados de fontes heterogêneas (SQL, NoSQL, arquivos) para um DW que pode ser processado em lote (processamento de grandes volumes de dados armazenados previamente. Ex.: csv’s, json’s, tabelas, sql) ou de forma distribuída (divisão do trabalho com processamento em paralelo entre computadores)

Data Warehouse (DW)

Um Data Warehouse (ou “armazém de dados”) é um sistema centralizado que armazena dados históricos de diferentes fontes dentro de uma organização, organizando-os para facilitar a análise e a geração de relatórios.

Ele é projetado para Business Intelligence (BI), permitindo que empresas tomem decisões baseadas em dados consolidados e confiáveis.

Principais Características do Data Warehouse

Integração de Dados
- Combina dados de múltiplas fontes (ERP, CRM, bancos de dados operacionais) em um formato padronizado.
Orientado a Assuntos
- Organiza dados por temas (ex.: vendas, clientes, finanças), não por processos operacionais.
Não Volátil
- Dados são apenas carregados e consultados, não modificados ou apagados (diferente de bancos transacionais).
Temporal
- Mantém histórico de dados para análise de tendências (ex.: comparação de vendas ano a ano).
Otimizado para Consultas
- Usa estruturas como star schema (tabelas fato e dimensões) para agilizar consultas complexas.

Data Marts (DM)

É uma parte de um DW focado em um departamento ou área específica.

Vantagens:
- Performance: Consultas mais rápidas (menos dados para scanear).
- Segurança: Controle de acesso por área (ex.: Financeiro não acessa dados de RH).
- Simplicidade: Modelos de dados mais intuitivos para o time.
Exemplos de Data Marts:
- Vendas: Dados de transações, clientes, regiões.
- Marketing: Campanhas, leads, ROI de mídia.
- RH: Folha de pagamento, desempenho de funcionários.
Tecnologias:
- Os mesmos do DW (Redshift, BigQuery) ou soluções dedicadas (SQL Server Analysis Services).

Business Intelligence (BI)

O Business Intelligence (BI) é o processo de coletar, analisar e transformar dados em informações úteis para a TOMADAS DE DECISÕES.

Tipos de análises em BI:

Análise Diagnóstica (Por que aconteceu?)
- Objetivo: Investigar causas raiz de eventos passados.
- Técnicas: Drill-down, segmentação, correlação.
- Exemplo: “A queda nas vendas ocorreu devido ao aumento de tarifas em julho de 2025.”
Análise Descritiva (O que aconteceu?)
- Objetivo: Resumir dados históricos para entender padrões e tendências.
- Exemplos: Relatórios, dashboards com KPIs, métricas de churn.
- Ferramentas: SQL, Tableau, Power BI.
- Exemplo: “As vendas caíram 10% no último trimestre.”
Análise Preditiva (O que pode acontecer?)
- Objetivo: Prever futuros resultados com base em dados históricos.
- Técnicas: Machine Learning, regressão, séries temporais.
- Ferramentas: Python (scikit-learn), R, Azure ML.
- Exemplo: “O modelo prevê uma queda de 15% nas vendas no próximo semestre se nada mudar.”
Análise Prescritiva (O que fazer?)
- Objetivo: Recomendar ações para otimizar resultados.
- Técnicas: Otimização, simulações, IA generativa.
- Ferramentas: IBM Decision Optimization, Prescriptive Analytics.
- Exemplo: “Recomenda-se diversificar ações considerando incertezas do mercado.”

Resumo:

Big Data (Dados de fontes externas e interna) -> Data Lake (repositório de dados brutos) -> ETL (dados processados) -> Data Warehouse (dados estruturados com dimensões) -> Business Intelligence (BI)

Tipos de fluxos:

Caso 1: Arquitetura Tradicional (ETL + DW)

Big Data (Json,CSV,API) → ETL (Apache Spark) → Data Warehouse → BI

Quando usar: Dados estruturados, necessidades de SQL rápido e governança rígida.

Caso 2: Arquitetura Moderna (ELT + Lakehouse)

Big Data (JSON, Imagens) → Data Lake (S3) → ELT (Spark) → Lakehouse (Delta Lake) → BI

Quando usar: Dados diversificados (ex.: imagens, JSON), flexibilidade para ML e análise exploratória

Caso 3: Streaming + DW

Streaming (Kafka) → Processamento em Tempo Real (Flink) → DW/Lake → BI/Alerta

Quando usar: Monitoramento contínuo (ex.: fraudes, IoT).

ETL não é o primeiro passo

O ETL é a ponte que move os dados de seus sistemas transacionais (fontes) para o modelo dimensional planejado (destino).

Para contruirmos o ETL (ponte) precisamos responde as seguintes perguntas:

De onde (quais sistemas fonte) você vai extrair os dados?
Como você vai transformar os dados? (Isso depende inteiramente de como suas tabelas de dimensões e fatos foram modeladas)
Para onde (qual modelo de tabelas) você vai carregar os dados?

Sem o destino claramente definido, a ponte não leva a lugar nenhum.

Os Quatro Passos Fundamentais

1. Estabelecer a Visão

Refere-se aos objetivos de negócio. Por que estamos construindo este data warehouse ou relatório?

Exemplos: Reduzir custos de estoque, entender o comportamento do cliente, aumentar a eficiência de campanhas de marketing.

2. Selecionar Área de Assunto

Um data warehouse completo é complexo demais para ser construído de uma vez. A metodologia mais comum é a construção incremental por áreas de assunto (data marts).

Exemplos: Vendas, Financeiro, Logística.

3. Modelagem Dimensional

Determinar, em nível de entidade, as dimensões e fatos:

Fatos: Eventos mensuráveis (verbos)
Dimensões: Contexto que cerca um fato (quem, o quê, onde, quando)

4. Desenvolver ETL

Somente após os passos anteriores é que se desenvolve a metodologia ETL:

Extract (Extrair)
Transform (Transformar)
Load (Carregar)

Exemplo Prático: Área de Assunto “Vendas”

Visão:

“Aumentar a receita por meio da análise do desempenho de vendas por categoria de produto e região.”

Área de Assunto Selecionada:

Vendas

Determinar Dimensões e Fatos (Modelagem Dimensional):

Tabela de Fato (o evento): Fato_Vendas

Métricas: Quantidade_Vendida, Valor_Venda, Custo_Unitário

Tabelas de Dimensão (o contexto):

Dim_Produto: (id_produto, nome_produto, categoria, subcategoria)
Dim_Cliente: (id_cliente, nome_cliente, cidade, estado, regiao)
Dim_Tempo: (id_data, data_completa, dia, mes, ano, trimestre)
Dim_Vendedor: (id_vendedor, nome_vendedor)

Desenvolver a Metodologia ETL (agora sim!):

Extrair

Identificar sistemas fonte (ERP, CRM) e extrair dados brutos das tabelas transacionais.

Transformar

Limpar, padronizar e estruturar os dados conforme o modelo dimensional definido.

Carregar

Inserir os dados transformados nas tabelas de destino (dimensões e fatos).

Conclusão

Tentar fazer o ETL sem o planejamento anterior seria como começar a assentar tijolos sem uma planta baixa. O resultado seria um caos total e inútil para atender à visão inicial. A modelagem dimensional adequada é fundamental para o sucesso de qualquer projeto de Business Intelligence e Data Warehousing.

Vídeo criando DataLake : YouTube

Big Data, ETL, Data Warehouse e Business Inteligence