Big Data (BD)
Big Data refere-se a conjuntos de dados extremamente grandes (Petabyte ou superior) e complexos, que não podem ser processados por ferramentas tradicionais de banco de dados.
Exemplo de Big Data: GOV.BR
Os dados de um Big Data podem ser:
- Dados Estruturados – São armazenados de maneira organizada, e fáceis de serem processados e analisados. Exemplo.: Excel, CSV
- Dados não estruturados – Não possuem uma estrutura predefinida. Geralmente utilizam o NoSQL. Exemplo: textuais (txt, pdf, docx,..), Multimídia ( jpg, png, mp3, wav,…), Dados Web (html), Outros Formatos (log, pptx,…)
- Semiestruturados – Mescla as duas anteriores. Exemplo: XML, JSON.
Esses dados são caracterizados pelos 5 Vs:
- Volume – Quantidade massiva de dados (ex.: redes sociais, sensores IoT, transações financeiras).
- Velocidade – Dados gerados e processados em alta velocidade (ex.: transações em tempo real, streaming de vídeos).
- Variedade – Dados estruturados (planilhas), semiestruturados (JSON, XML) e não estruturados (imagens, áudios, textos).
- Veracidade – Confiabilidade e qualidade dos dados.
- Valor – Capacidade de extrair insights úteis para decisões estratégicas.
Plataforma de Processamento Distribuído (ETL)
O SPARK é um ETL usado para extrair, transformar e carregar grandes volumes de dados de fontes heterogêneas (SQL, NoSQL, arquivos) para um DW que pode ser processado em lote (processamento de grandes volumes de dados armazenados previamente. Ex.: csv’s, json’s, tabelas, sql) ou de forma distribuída (divisão do trabalho com processamento em paralelo entre computadores)
Data Warehouse (DW)
Um Data Warehouse (ou “armazém de dados”) é um sistema centralizado que armazena dados históricos de diferentes fontes dentro de uma organização, organizando-os para facilitar a análise e a geração de relatórios.
Ele é projetado para Business Intelligence (BI), permitindo que empresas tomem decisões baseadas em dados consolidados e confiáveis.
Principais Características do Data Warehouse
-
Integração de Dados
-
Combina dados de múltiplas fontes (ERP, CRM, bancos de dados operacionais) em um formato padronizado.
-
-
Orientado a Assuntos
-
Organiza dados por temas (ex.: vendas, clientes, finanças), não por processos operacionais.
-
-
Não Volátil
-
Dados são apenas carregados e consultados, não modificados ou apagados (diferente de bancos transacionais).
-
-
Temporal
-
Mantém histórico de dados para análise de tendências (ex.: comparação de vendas ano a ano).
-
-
Otimizado para Consultas
-
Usa estruturas como star schema (tabelas fato e dimensões) para agilizar consultas complexas.
-
Data Marts (DM)
É uma parte de um DW focado em um departamento ou área específica.
-
Vantagens:
-
Performance: Consultas mais rápidas (menos dados para scanear).
-
Segurança: Controle de acesso por área (ex.: Financeiro não acessa dados de RH).
-
Simplicidade: Modelos de dados mais intuitivos para o time.
-
-
Exemplos de Data Marts:
-
Vendas: Dados de transações, clientes, regiões.
-
Marketing: Campanhas, leads, ROI de mídia.
-
RH: Folha de pagamento, desempenho de funcionários.
-
-
Tecnologias:
-
Os mesmos do DW (Redshift, BigQuery) ou soluções dedicadas (SQL Server Analysis Services).
-
Business Intelligence (BI)
O Business Intelligence (BI) é o processo de coletar, analisar e transformar dados em informações úteis para a TOMADAS DE DECISÕES.
Tipos de análises em BI:
- Análise Diagnóstica (Por que aconteceu?)
- Objetivo: Investigar causas raiz de eventos passados.
- Técnicas: Drill-down, segmentação, correlação.
- Exemplo: “A queda nas vendas ocorreu devido ao aumento de tarifas em julho de 2025.”
- Análise Descritiva (O que aconteceu?)
- Objetivo: Resumir dados históricos para entender padrões e tendências.
- Exemplos: Relatórios, dashboards com KPIs, métricas de churn.
- Ferramentas: SQL, Tableau, Power BI.
- Exemplo: “As vendas caíram 10% no último trimestre.”
- Análise Preditiva (O que pode acontecer?)
- Objetivo: Prever futuros resultados com base em dados históricos.
- Técnicas: Machine Learning, regressão, séries temporais.
- Ferramentas: Python (scikit-learn), R, Azure ML.
- Exemplo: “O modelo prevê uma queda de 15% nas vendas no próximo semestre se nada mudar.”
- Análise Prescritiva (O que fazer?)
- Objetivo: Recomendar ações para otimizar resultados.
- Técnicas: Otimização, simulações, IA generativa.
- Ferramentas: IBM Decision Optimization, Prescriptive Analytics.
- Exemplo: “Recomenda-se diversificar ações considerando incertezas do mercado.”
Resumo:
Big Data (Dados de fontes externas e interna) -> Data Lake (repositório de dados brutos) -> ETL (dados processados) -> Data Warehouse (dados estruturados com dimensões) -> Business Intelligence (BI)
Tipos de fluxos:
Caso 1: Arquitetura Tradicional (ETL + DW)
Big Data (Json,CSV,API) → ETL (Apache Spark) → Data Warehouse → BI
-
Quando usar: Dados estruturados, necessidades de SQL rápido e governança rígida.
Caso 2: Arquitetura Moderna (ELT + Lakehouse)
Big Data (JSON, Imagens) → Data Lake (S3) → ELT (Spark) → Lakehouse (Delta Lake) → BI
-
Quando usar: Dados diversificados (ex.: imagens, JSON), flexibilidade para ML e análise exploratória
Caso 3: Streaming + DW
Streaming (Kafka) → Processamento em Tempo Real (Flink) → DW/Lake → BI/Alerta
-
Quando usar: Monitoramento contínuo (ex.: fraudes, IoT).
ETL não é o primeiro passo
O ETL é a ponte que move os dados de seus sistemas transacionais (fontes) para o modelo dimensional planejado (destino).
Para contruirmos o ETL (ponte) precisamos responde as seguintes perguntas:
- De onde (quais sistemas fonte) você vai extrair os dados?
- Como você vai transformar os dados? (Isso depende inteiramente de como suas tabelas de dimensões e fatos foram modeladas)
- Para onde (qual modelo de tabelas) você vai carregar os dados?
Os Quatro Passos Fundamentais
Refere-se aos objetivos de negócio. Por que estamos construindo este data warehouse ou relatório?
Exemplos: Reduzir custos de estoque, entender o comportamento do cliente, aumentar a eficiência de campanhas de marketing.
Um data warehouse completo é complexo demais para ser construído de uma vez. A metodologia mais comum é a construção incremental por áreas de assunto (data marts).
Exemplos: Vendas, Financeiro, Logística.
Determinar, em nível de entidade, as dimensões e fatos:
- Fatos: Eventos mensuráveis (verbos)
- Dimensões: Contexto que cerca um fato (quem, o quê, onde, quando)
Somente após os passos anteriores é que se desenvolve a metodologia ETL:
- Extract (Extrair)
- Transform (Transformar)
- Load (Carregar)
Exemplo Prático: Área de Assunto “Vendas”
Visão:
“Aumentar a receita por meio da análise do desempenho de vendas por categoria de produto e região.”
Área de Assunto Selecionada:
Vendas
Determinar Dimensões e Fatos (Modelagem Dimensional):
Tabela de Fato (o evento): Fato_Vendas
Métricas: Quantidade_Vendida, Valor_Venda, Custo_Unitário
Tabelas de Dimensão (o contexto):
- Dim_Produto: (id_produto, nome_produto, categoria, subcategoria)
- Dim_Cliente: (id_cliente, nome_cliente, cidade, estado, regiao)
- Dim_Tempo: (id_data, data_completa, dia, mes, ano, trimestre)
- Dim_Vendedor: (id_vendedor, nome_vendedor)
Desenvolver a Metodologia ETL (agora sim!):
Extrair
Identificar sistemas fonte (ERP, CRM) e extrair dados brutos das tabelas transacionais.
Transformar
Limpar, padronizar e estruturar os dados conforme o modelo dimensional definido.
Carregar
Inserir os dados transformados nas tabelas de destino (dimensões e fatos).
Conclusão
Tentar fazer o ETL sem o planejamento anterior seria como começar a assentar tijolos sem uma planta baixa. O resultado seria um caos total e inútil para atender à visão inicial. A modelagem dimensional adequada é fundamental para o sucesso de qualquer projeto de Business Intelligence e Data Warehousing.
Vídeo criando DataLake : YouTube