Objetivo do processo do KDD (Knowledge Discovery in Databases) é a busca pela forma da representação do conhecimento por meio da identificação de padrões (compreensíveis, válidos ao contexto, novos e úteis).
KDD é o processo de descoberta de conhecimentos úteis a partir de dados.
O KDD se divide em:
- Pré-processamento – dados brutos ➜ dados transformados
- Mineração de dados – dados transformados ➜ escolha de algorítimo e treinamento de máquina ➜ padrões
- Pós-processamento – padrões ➜ Interpretação ou Avaliação ➜ conhecimento
PRÉ-PROCESSAMENTO |
||||
| Seleção | Preparação | Transformação | ||
| Coleta e Integração | Codificação | Construção de atributos | Limpeza dos dados | Partição dos dados |
| salvar os dados em um repositório local (ETL) | Conversões de tipos de dados | Renomear colunas e criar novas colunas | Complementação de dados ausentes, detecção de ruídos e eliminação de dados inconsistentes | Escolha de algorítimo e dividir os dados para treino e teste do treinamento de máquina. |
Algorítimos |
|||
| Associação | Agrupamento | Classificação | Regressão Linear |
| Correlaciona a ocorrencia de eventos distintos. Exemplo quando um cliente compra leite e farinha também costuma comprar ovos. O que leva o supermecado colocar estes produtos próximos. | Agrupamento é muito utilizado no Marketing para compreender o comportamento de grupos de clientes. O agrupamento é o aprendizado não supervisionado usado para descobrir grupos naturais em dados não rotulados. | Classifica após aprender a identificar padrões de exemplos já classificados. Exemplo clássico seria classificar fotos de gatos e cães. | Regressão Linear estima uma variável a partir de uma função. Um exemplo seria calcular o valor de um imóvel à venda em um bairro, partindo de uma base de dados que tem histórico de uma imobiliária na região. |
Saiba mais sobre KDD no post Descoberta de conhecimento e Aprendizado de Máquina