Etapas do KDD

minerador

 

Objetivo do processo do KDD (Knowledge Discovery in Databases) é a busca pela forma da representação do conhecimento por meio da identificação de padrões (compreensíveis, válidos ao contexto, novos e úteis).
KDD é o processo de descoberta de conhecimentos úteis a partir de dados.

O KDD se divide em:

  1. Pré-processamento – dados brutos ➜ dados transformados
  2. Mineração de dados – dados transformados ➜ escolha de algorítimo e treinamento de máquina ➜ padrões
  3. Pós-processamento – padrões ➜ Interpretação ou Avaliação ➜ conhecimento

 

PRÉ-PROCESSAMENTO

Seleção Preparação Transformação
Coleta e Integração Codificação Construção de atributos Limpeza dos dados Partição dos dados
salvar os dados em um repositório local (ETL) Conversões de tipos de dados Renomear colunas e criar novas colunas Complementação de dados ausentes, detecção de ruídos e eliminação de dados inconsistentes Escolha de algorítimo e dividir os dados para treino e teste do treinamento de máquina.

 

 

Algorítimos

Associação Agrupamento Classificação Regressão Linear
Correlaciona a ocorrencia de eventos distintos. Exemplo quando um cliente compra leite e farinha também costuma comprar ovos. O que leva o supermecado colocar estes produtos próximos. Agrupamento é muito utilizado no Marketing para compreender o comportamento de grupos de clientes. O agrupamento é o aprendizado não supervisionado usado para descobrir grupos naturais em dados não rotulados. Classifica após aprender a identificar padrões de exemplos já classificados. Exemplo clássico seria classificar fotos de gatos e cães. Regressão Linear estima uma variável a partir de uma função. Um exemplo seria calcular o valor de um imóvel à venda em um bairro, partindo de uma base de dados que tem histórico de uma imobiliária na região.

 

Saiba mais sobre KDD no post Descoberta de conhecimento e Aprendizado de Máquina

Aprendizado de Máquina

Aprendizado de Máquina

Aprendizado de máquina é o campo de estudo que possibilita aos computadores a habilidade de aprender sem explicitamente programá-los.

Arthur Samuel, 1959

Aprendizado de Máquina ou Machine Learning – ML

No aprendizado de máquina treinamos a máquina para que ela aprenda a identificar padrões ou fazer relações com os dados históricos, a finalidade é que ela depois de treinada possa aplicar sua nova habilidade a novos dados nunca vistos.

 

1 – Aprendizado supervisionado

O modelo aprende a partir de exemplos com rótulos conhecidos (respostas corretas).
O objetivo é generalizar para fazer predições em novos dados não vistos.
Exemplos:
  • Classificação Binária. Objetivo: Prever uma entre duas classes (ex: spam/não-spam, doente/saudável).
  • Classificação Multiclasse. Objetivo: Prever uma entre três ou mais classes (ex: visão computacional gato/cachorro).
  • Regressão. Objetivo: Prever um valor contínuo (ex: preço de casas, temperatura).

2 – Aprendizado não supervisionado

Não possui pré-mapeamento ou rótulo.
O sistema cria etiquetas temporárias (clusters) baseando-se na semelhança entre os dados (padrões)
Exemplos:
  • Agrupamento ou Clusterização pura (K-Means)
  • Associação. Ex.: Fazer a associação quando um cliente compra um produto X também compra o produto Y.
É utilizado para mapear padrões ocultos e em situações complexas de classificação.

3 – Aprendizado semissupervisionado

É o aprendizado no qual uma parte (menor) dos dados é rotulada previamente, com base no subconjunto menor rotulado se generaliza padrões para rotular o grupo maior.
O procedimento de aprendizagem passa por treinamentos sucessivos, onde os dados conhecidos e não conhecidos são embaralhados e com base na sua acurácia obtida dos treinamentos, a árvore de decisão é ajustada para chegarmos a um nível de acurácia aceitável ao propósito.
É utilizado quando os dados rotulados são confiáveis, mas escassos.

4 – Aprendizado por reforço

O agente inteligente aprende políticas de ações com base em interações com o ambiente no qual ele é implementado, a partir de recompensas ou punições, dependendo de cada ação.
Exemplos:
  • Cria-se um jogador (agente) que ganha recompensas ao fazer uma jogada correta ou punições quando erra. As partidas são o treinamento do jogador e o resultado será um jogador capaz de zerar o jogo.