Biblioteca Pandas

A biblioteca Pandas nos ajuda a ler diversos tipos de arquivos, trata-los, tirar redundâncias, resumi-los e visualiza-los em disversas formas.

No primeiro momento é possível que os dados do seu dataset venham com incompletos, registros nulos ou registros mal formatados.

Utilize df.info() para entender onde temos valores nulos e valores não válidos. Exemplo de ‘valor não válido’ seria em uma informação na coluna altura de um funcionário onde encontramos o valor de 9.5 metros. Fica claro neste caso que não temos uma pessoa de 9 metros e meio, portanto temos uma informação incorreta que deve ser descartada ou alterada.
Utilize dropna() quando os valores de linhas com dados ausentes são irrelevantes. Ex.: Não impacta apagarmos 30 linhas de um dataset de 100.000 linhas.
Utilize df.fillna(valor) quando você quer preservar agumas das linhas/colunas que tem valores nulos. Ex:. Vamos dizer que o dataset tenha 1% de registros com valores nulos na coluna salário, poderíamos subistituir por um valor de salário médio a fim de preservar as demais informações nestas linhas (registros). É importante sempre comentar e documentar esses tipos de abordagem.

Sintetizar as informações relevantes

Para visualizarmos melhor é importante aplicar filtros e agregar os dados. Exemplo de Filtro: Se o dataset se refere a um histórico de preço de combustível de todo o Brasil e nosso interesse de pesquisa é apenas no Rio de Janeiro podemos filtrar pelo RJ.
Quando trabalhamos com dados numéricos em escalas diferentes, é importante aplicar um processo conhecido como normalização. Basicamente é pegar dados que podem ser organizados em uma escala e transforma-los em números. Exemplo: Escala de urgência “urgente”,”media” e “baixa” pode ser normalizado pois existe uma ordem intrínseca, já no caso de cor “branca”, “vermelha” e “azul” não podemos fazer uma normalização pois não existe uma ordem intrínseca .

Os Dados ainda podem ser classificados como:

Dados primários

São aqueles coletados de primeira mão, ou seja, dados que ainda não foram publicados, autênticos, sem interferência humana.
Entre as fontes de dados primários, temos questionários e entrevistas.

Dados secundários

São aqueles dados que já foram publicados de alguma forma, ou seja, sofreram alguma interferência humana.
Entre as fontes de dados secundários, temos: livros e jornais.

Dados qualitativos

São dados não numéricos, em sua maioria, normalmente descritivos ou nominais. Apresentam-se, em geral, em formato de textos, sentenças ou rótulos.

Dados quantitativos

São os dados numéricos, que podem ser matematicamente computados. Essa categoria de dado mede diferentes escalas que podem ser nominais, ordinais, intervalares e proporcionais. Na maioria dos casos, esses dados resultam da medição de algum aspecto ou fenômeno.

Método de coleta dos dados:

Podemos coletar dados qualitativos por perguntas abertas e os métodos envolvidos para seu tratamento são grupos de foco, de discussão e entrevistas.
Podemos coletar dados quantitativos por surveys (Pesquisas/Questionários), as queries(Consultas a Bancos de Dados), o consumo de relatórios (Reports) e os scrapers (mineração de dados com bibliotecas BeautifulSoup e Scrapy)
As categorias de dados não são mutuamente exclusivas, pois é muito comum encontrar relatórios ou fazer entrevistas cujo resultado contenha tanto dados quantitativos e qualitativos.

Regulação de dados

Ainda podemos encontrar pontos fora da curva (outliers – muito maiores). Podemos remover os dados destoantes do conjunto ou fazermos uma regularização que é trazer um valor proporcional pela fórmula valor_observado/(valor_maximo – valor_mínimo) chegando a um valor entre 0 e 1.

Big Data (BD)

Big Data refere-se a conjuntos de dados extremamente grandes (Petabyte ou superior) e complexos, que não podem ser processados por ferramentas tradicionais de banco de dados.

Exemplo de Big Data: GOV.BR

Os dados de um Big Data podem ser:

Dados Estruturados – São armazenados de maneira organizada, e fáceis de serem processados e analisados. Exemplo.: Excel, CSV
Dados não estruturados – Não possuem uma estrutura predefinida. Geralmente utilizam o NoSQL. Exemplo: textuais (txt, pdf, docx,..), Multimídia ( jpg, png, mp3, wav,…), Dados Web (html), Outros Formatos (log, pptx,…)
Semiestruturados – Mescla as duas anteriores. Exemplo: XML, JSON.

Esses dados são caracterizados pelos 5 Vs:

Volume – Quantidade massiva de dados (ex.: redes sociais, sensores IoT, transações financeiras).
Velocidade – Dados gerados e processados em alta velocidade (ex.: transações em tempo real, streaming de vídeos).
Variedade – Dados estruturados (planilhas), semiestruturados (JSON, XML) e não estruturados (imagens, áudios, textos).
Veracidade – Confiabilidade e qualidade dos dados.
Valor – Capacidade de extrair insights úteis para decisões estratégicas.

Plataforma de Processamento Distribuído (ETL)

O SPARK é um ETL usado para extrair, transformar e carregar grandes volumes de dados de fontes heterogêneas (SQL, NoSQL, arquivos) para um DW que pode ser processado em lote (processamento de grandes volumes de dados armazenados previamente. Ex.: csv’s, json’s, tabelas, sql) ou de forma distribuída (divisão do trabalho com processamento em paralelo entre computadores)

Data Warehouse (DW)

Um Data Warehouse (ou “armazém de dados”) é um sistema centralizado que armazena dados históricos de diferentes fontes dentro de uma organização, organizando-os para facilitar a análise e a geração de relatórios.

Ele é projetado para Business Intelligence (BI), permitindo que empresas tomem decisões baseadas em dados consolidados e confiáveis.

Principais Características do Data Warehouse

Integração de Dados
- Combina dados de múltiplas fontes (ERP, CRM, bancos de dados operacionais) em um formato padronizado.
Orientado a Assuntos
- Organiza dados por temas (ex.: vendas, clientes, finanças), não por processos operacionais.
Não Volátil
- Dados são apenas carregados e consultados, não modificados ou apagados (diferente de bancos transacionais).
Temporal
- Mantém histórico de dados para análise de tendências (ex.: comparação de vendas ano a ano).
Otimizado para Consultas
- Usa estruturas como star schema (tabelas fato e dimensões) para agilizar consultas complexas.

Data Marts (DM)

É uma parte de um DW focado em um departamento ou área específica.

Vantagens:
- Performance: Consultas mais rápidas (menos dados para scanear).
- Segurança: Controle de acesso por área (ex.: Financeiro não acessa dados de RH).
- Simplicidade: Modelos de dados mais intuitivos para o time.
Exemplos de Data Marts:
- Vendas: Dados de transações, clientes, regiões.
- Marketing: Campanhas, leads, ROI de mídia.
- RH: Folha de pagamento, desempenho de funcionários.
Tecnologias:
- Os mesmos do DW (Redshift, BigQuery) ou soluções dedicadas (SQL Server Analysis Services).

Business Intelligence (BI)

O Business Intelligence (BI) é o processo de coletar, analisar e transformar dados em informações úteis para a TOMADAS DE DECISÕES.

Tipos de análises em BI:

Análise Diagnóstica (Por que aconteceu?)
- Objetivo: Investigar causas raiz de eventos passados.
- Técnicas: Drill-down, segmentação, correlação.
- Exemplo: “A queda nas vendas ocorreu devido ao aumento de tarifas em julho de 2025.”
Análise Descritiva (O que aconteceu?)
- Objetivo: Resumir dados históricos para entender padrões e tendências.
- Exemplos: Relatórios, dashboards com KPIs, métricas de churn.
- Ferramentas: SQL, Tableau, Power BI.
- Exemplo: “As vendas caíram 10% no último trimestre.”
Análise Preditiva (O que pode acontecer?)
- Objetivo: Prever futuros resultados com base em dados históricos.
- Técnicas: Machine Learning, regressão, séries temporais.
- Ferramentas: Python (scikit-learn), R, Azure ML.
- Exemplo: “O modelo prevê uma queda de 15% nas vendas no próximo semestre se nada mudar.”
Análise Prescritiva (O que fazer?)
- Objetivo: Recomendar ações para otimizar resultados.
- Técnicas: Otimização, simulações, IA generativa.
- Ferramentas: IBM Decision Optimization, Prescriptive Analytics.
- Exemplo: “Recomenda-se diversificar ações considerando incertezas do mercado.”

Resumo:

Big Data (Dados de fontes externas e interna) -> Data Lake (repositório de dados brutos) -> ETL (dados processados) -> Data Warehouse (dados estruturados com dimensões) -> Business Intelligence (BI)

Tipos de fluxos:

Caso 1: Arquitetura Tradicional (ETL + DW)

Big Data (Json,CSV,API) → ETL (Apache Spark) → Data Warehouse → BI

Quando usar: Dados estruturados, necessidades de SQL rápido e governança rígida.

Caso 2: Arquitetura Moderna (ELT + Lakehouse)

Big Data (JSON, Imagens) → Data Lake (S3) → ELT (Spark) → Lakehouse (Delta Lake) → BI

Quando usar: Dados diversificados (ex.: imagens, JSON), flexibilidade para ML e análise exploratória

Caso 3: Streaming + DW

Streaming (Kafka) → Processamento em Tempo Real (Flink) → DW/Lake → BI/Alerta

Quando usar: Monitoramento contínuo (ex.: fraudes, IoT).

ETL não é o primeiro passo

O ETL é a ponte que move os dados de seus sistemas transacionais (fontes) para o modelo dimensional planejado (destino).

Para contruirmos o ETL (ponte) precisamos responde as seguintes perguntas:

De onde (quais sistemas fonte) você vai extrair os dados?
Como você vai transformar os dados? (Isso depende inteiramente de como suas tabelas de dimensões e fatos foram modeladas)
Para onde (qual modelo de tabelas) você vai carregar os dados?

Sem o destino claramente definido, a ponte não leva a lugar nenhum.

Os Quatro Passos Fundamentais

1. Estabelecer a Visão

Refere-se aos objetivos de negócio. Por que estamos construindo este data warehouse ou relatório?

Exemplos: Reduzir custos de estoque, entender o comportamento do cliente, aumentar a eficiência de campanhas de marketing.

2. Selecionar Área de Assunto

Um data warehouse completo é complexo demais para ser construído de uma vez. A metodologia mais comum é a construção incremental por áreas de assunto (data marts).

Exemplos: Vendas, Financeiro, Logística.

3. Modelagem Dimensional

Determinar, em nível de entidade, as dimensões e fatos:

Fatos: Eventos mensuráveis (verbos)
Dimensões: Contexto que cerca um fato (quem, o quê, onde, quando)

4. Desenvolver ETL

Somente após os passos anteriores é que se desenvolve a metodologia ETL:

Extract (Extrair)
Transform (Transformar)
Load (Carregar)

Exemplo Prático: Área de Assunto “Vendas”

Visão:

“Aumentar a receita por meio da análise do desempenho de vendas por categoria de produto e região.”

Área de Assunto Selecionada:

Vendas

Determinar Dimensões e Fatos (Modelagem Dimensional):

Tabela de Fato (o evento): Fato_Vendas

Métricas: Quantidade_Vendida, Valor_Venda, Custo_Unitário

Tabelas de Dimensão (o contexto):

Dim_Produto: (id_produto, nome_produto, categoria, subcategoria)
Dim_Cliente: (id_cliente, nome_cliente, cidade, estado, regiao)
Dim_Tempo: (id_data, data_completa, dia, mes, ano, trimestre)
Dim_Vendedor: (id_vendedor, nome_vendedor)

Desenvolver a Metodologia ETL (agora sim!):

Extrair

Identificar sistemas fonte (ERP, CRM) e extrair dados brutos das tabelas transacionais.

Transformar

Limpar, padronizar e estruturar os dados conforme o modelo dimensional definido.

Carregar

Inserir os dados transformados nas tabelas de destino (dimensões e fatos).

Conclusão

Tentar fazer o ETL sem o planejamento anterior seria como começar a assentar tijolos sem uma planta baixa. O resultado seria um caos total e inútil para atender à visão inicial. A modelagem dimensional adequada é fundamental para o sucesso de qualquer projeto de Business Intelligence e Data Warehousing.

Vídeo criando DataLake : YouTube

Pandas na análise de dados