O KDD é um processo iterativo e interativo para extração de conhecimento significativo de grandes volumes de dados. Consiste em múltiplas etapas que vão desde o entendimento do domínio até a implementação do conhecimento descoberto.
Visão Geral do Processo
O processo de KDD pode ser representado pela fórmula: \(KDD = F(D, M, K)\) onde:
- \(D\) = Dados
- \(M\) = Métodos de Mineração
- \(K\) = Conhecimento
As 9 Etapas do Processo KDD
1. Compreensão do Domínio
Desenvolver uma compreensão do domínio de aplicação e do conhecimento prévio relevante, identificando o objetivo do processo KDD do ponto de vista do cliente.
2. Seleção do Conjunto de Dados
Criar um conjunto de dados-alvo, selecionando um conjunto de dados ou concentrando-se num subconjunto de variáveis ou amostras de dados.
3. Limpeza e Pré-processamento
Operações incluem remoção de ruído, tratamento de dados faltantes e consideração de aspectos temporais.
Técnicas Comuns:
- Imputação de valores missing
- Normalização de dados
- Detecção de outliers
4. Redução e Projeção
Encontrar características úteis para representar os dados através de redução de dimensionalidade ou transformações.
5. Escolha da Tarefa de Mineração
Corresponder os objetivos do processo KDD a métodos específicos como classificação, regressão, agrupamento, etc.
Tarefas comuns: Classificação, Regressão, Clusterização, Associação, Detecção de Anomalias
6. Seleção de Algoritmos
Escolha dos algoritmos de mineração de dados e métodos apropriados para a pesquisa de padrões.
7. Mineração de Dados
Prospecção de dados para procurar padrões de interesse em formas representacionais específicas.
Atenção: Esta etapa requer validação cruzada para evitar overfitting.
8. Interpretação de Padrões
Interpretação dos padrões minerados, possivelmente retornando a etapas anteriores para iteração.
9. Implementação do Conhecimento
Utilizar o conhecimento descoberto, documentar e comunicar às partes interessadas.
Importante: Verificar e resolver conflitos com conhecimentos previamente extraídos.
Conclusão
O processo de KDD é fundamental para transformar dados brutos em conhecimento acionável. Cada etapa é crucial e o processo é iterativo, permitindo refinamentos contínuos baseados nos insights obtidos.
A equação fundamental do KDD pode ser expressa como: \(K = F(D, P, M)\) onde \(P\) representa os parâmetros do processo.
Etapas do processo de KDD
- \(Dados\overset{selecao}{\rightarrow} \)
- \(Dados\hspace{0.2cm}de\hspace{0.2cm}interesse\overset{pre\hspace{0.2cm}processamento}{\rightarrow}\)
- \(Dados\hspace{0.2cm}pre\hspace{0.2cm}processados\overset{formatacao}{\rightarrow} \)
- \(Dados\hspace{0.2cm}formatados\overset{mineracao\hspace{0.2cm}de\hspace{0.2cm}dados}{\rightarrow}\)
- \(Padroes\overset{interpretacao\hspace{0.2cm}avaliacao}{\rightarrow}conhecimento\)
Referências Bibliográficas
FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data mining to knowledge discovery in databases. AI Magazine, 1996.
HAN, J.; KAMBER, M.; PEI, J. Data mining: concepts and techniques. Morgan Kaufmann, 2011.