Data Lake e ETL

lago
Data Lake e ETL são dois conceitos fundamentais no gerenciamento de dados moderno, mas servem a propósitos diferentes e são frequentemente usados em conjunto. Vamos explorar suas características, diferenças e casos de uso.

Comparação Direta

Data Lake

Um Data Lake é um repositório que armazena uma enorme quantidade de dados brutos em seu formato nativo, incluindo structured, semi-structured e unstructured data.

Características Principais:

  • Armazena dados em seu formato bruto e original
  • Schema-on-read (esquema aplicado durante a leitura)
  • Altamente escalável e flexível
  • Ideal para big data e analytics avançado
  • Retém todos os dados, independentemente do valor atual

Vantagens:

  • Preserva todos os dados em formato original
  • Flexibilidade para análise futura
  • Economia de custos com armazenamento
  • Suporte a machine learning e analytics avançados

ETL

ETL (Extract, Transform, Load) é o processo de carga, onde os dados da origem são transformados em um formato adequado e são carregados no sistema de destino.

Características Principais:

  • Processo de transformação de dados antes do armazenamento
  • Schema-on-write (esquema aplicado durante a escrita)
  • Dados estruturados e prontos para uso
  • Foco em data warehouses e BI tradicional
  • Filtra e transforma dados para necessidades específicas

Vantagens:

  • Dados limpos e estruturados
  • Desempenho otimizado para reporting
  • Governança e qualidade de dados incorporadas
  • Mais fácil para usuários de negócio consumirem

Diferença fundamental: Enquanto o ETL é um processo de transformação e movimentação de dados, o Data Lake é um repositório de armazenamento. São conceitos complementares, não excludentes.

Quando usar cada abordagem?

Quando usar Data Lake

  • Armazenamento de grandes volumes de dados diversificados
  • Projetos de machine learning e analytics avançado
  • Quando não se sabe antecipadamente como os dados serão usados
  • Preservação de dados brutos para conformidade regulatória
  • Análise de dados não estruturados (logs, imagens, textos)

Quando usar ETL

  • Integração de dados para data warehouses tradicionais
  • Business Intelligence e reporting estruturado
  • Quando se necessita de dados limpos e consistentes
  • Ambientes com requisitos rigorosos de governança de dados
  • Processos operacionais que dependem de dados confiáveis

Como Data Lake e ETL trabalham juntos

Na prática, Data Lakes e processos ETL não são excludentes, mas complementares. Uma arquitetura moderna frequentemente utiliza ambos:

  1. Dados brutos são ingeridos e armazenados no Data Lake
  2. Processos ETL/ELT são usados para extrair dados do Lake, transformá-los e carregá-los em data warehouses ou outros sistemas
  3. O Data Lake serve como camada de armazenamento cru, enquanto o ETL prepara dados para consumo específico
  4. Analistas e cientistas de dados podem acessar tanto os dados brutos quanto os processados

Salvando os dados no Data Lake garantimos acesso aos dados brutos localmente, a partir dele, podemos adicionarmos em tabelas temporárias para nos auxiliar nos tratamentos que devem ser aplicados aos dados no processamento ETL

Conclusão

Data Lake e ETL abordam desafios diferentes no gerenciamento de dados. O Data Lake foca no armazenamento flexível de grandes volumes de dados em formato bruto, enquanto o ETL é um processo de transformação que prepara dados para uso específico.

Em vez de escolher entre um ou outro, as organizações modernas geralmente implementam ambos em uma arquitetura complementar: o Data Lake como repositório central de dados brutos e processos ETL/ELT para transformar esses dados em informações acionáveis para negócios.

Descoberta de conhecimento e Aprendizado de Máquina

cientista

Descoberta de conhecimento em bancos de dados

KDD é o processo de várias etapas, não trivial , interativo e iterativo.

  • Interativo porquê existe interações homem e máquina.
  • Iterativo porquê sofre refinamentos sucessívos.
  • Objetivo do processo do KDD é a busca pela forma da representação do conhecimento por meio da identificação de padrões (compreensíveis, válidos ao contexto, novos e úteis)

No KDD devemos manter o foco na descoberta de padrões significativos (não apenas técnico, mas também na tomada de decisão).

A busca por padrões úteis nos dados já recebeu nome de:

  • Descoberta de informação,
  • Data Mining (Mineração de Dados),
  • extração de conhecimento,
  • descoberta de informação,
  • arqueologia de dados e
  • processamento de dados

O KDD pode ser dividido em 9 etapas:

  1. Desenvolver um conhecimento prévio para identificar o objetivo do ponto de vista do cliente e compreender a sua aplicação prática no mundo real.
  2. Selecionar um conjunto de dados de onde pretendemos extrair o conhecimento
  3. Limpeza de dados, pré-processamento, remoção de ruídos. Nesta faze utilizamos o Pandas.
  4. Redução e projeção de dados. Encontrar características úteis que representa a função do objetivo da tarefa.
  5. Corrrespodência dos objetivos do processo KDD (primeiros passos), nesta etapa podemos fazer um resumo, classificação por classes, regressão, agrupamento etc.
  6. Análise exploratória e seleção de modelos e hipóteses: Decidir que modelos e parâmetros serão mais apropriados na extração dos padrões.
  7. Prospecção de dados usando aprendizado de máquina
  8. Interpretação de padrões minerados, regressando possivelmente aos passos anteriores.
  9. Atuar na fronteira do conhecimento descoberto ao utilizar diretamente o conhecimento, classificando o conhecimento em outro sistema para ação futura, ou, simplesmente, documentando e comunicando às partes interessadas. Esse processo inclui também a verificação e a resolução de conflitos potenciais com conhecimentos previamente obtidos.

Técnicas Principais:

  • Classificação, hierarquização dos dados baseada em estágios de decisão (nós) e na separação de classes e subconjuntos. (ex: árvores de decisão)
  • Clusterização, se baseia no método do vizinho mais próximo, combina e compara atributos para estabelecer hierarquia de semelhança. (ex: K-means)
  • Algorítmos genéticos, são métodos gerais de busca e otimização, inspirados na Teoria da Evolução, na qual, a cada nova geração, herda características de seus descendentes possibilitando a evolução e aprimoramento.
  • Associação, estabelece uma correlação estatística entre atributos de dados e conjunto de dados. (ex: regras “se…então”)
  • Redes Neurais Artificiais, são modelos inspirados na fisiologia do cérebro, onde o conhecimento é fruto do mapa das conexões neuronais. As conexões são fruto do somatório de pesos calculados no treinamento de máquina.
  • Detecção de anomalias

 

Pode ser Classificado:

  • Tarefas Preditivas
    • Classificação
    • Regresção
  • Tarefas Descritivas
    • Regras de Associação
    • Clustering
    • Sumarização
    • Outras

Pode usar algoritmos de Aprendizado de Máquina, mas também métodos estatísticos e de banco de dados.

O KDD envolve as disciplinas :

  • estatística,
  • banco de dados,
  • inteligência artificial e
  • aprendizado de máquina.

Aprendizado de Máquina

É uma ferramenta/disciplina que tem crescido e se desenvolvido em conjunto com o KDD possibilitando soluções tecnológicas inovadoras na busca de padrões.

Pirâmide do Conhecimento

DADO INFORMAÇÃO CONHECIMENTO SABEDORIA
Dados no Big Data Dados de Interesse Dados processados Dados formatados Dados com contexto Conhecimento

Fluxo KDD

Coleta de Dados Seleção Pré-Processamento Transformação Mineração de Dados Interpretação ou Avaliação
  • Dado bruto
  • Selecionar um sub-conjunto de dados (data set)
  • Seleçãode dados
  • Limpezade Dados
  • Integração dos Dados
  • Transformação dos Dados
  • Redução dos Dados
  • Normalização
  • Agregação
  • Criação de novos atributos
  • Redução
  • Sintetização dos dados
  • Criar modelos
  • Aplicar técnicas de Mineração de Dados
  • Descobrir novos padrões de forma autonoma
  • (Preditiva ou Descritiva)
  • avaliação estatística
  • avaliação dos profissionais de negócio

CRISP_DM

Dado Entendimento do Negócio Entendimento dos Dados Preparação de Dados Modelagem Avaliação Implantação