Encontrar Padrões Úteis em Dados – Nomenclaturas

A disciplina de encontrar padrões úteis em dados tem evoluído ao longo do tempo, recebendo diversas denominações que refletem diferentes perspectivas e abordagens metodológicas.

Contexto Histórico e Evolução Terminológica

O processo de descoberta de conhecimento em bancos de dados pode ser representado pela fórmula: \(KDD = P(D, M, K)\) onde:

  • \(D\) = Dados
  • \(M\) = Métodos
  • \(P\) = Processo
  • \(K\) = Conhecimento

As 5 Principais Nomenclaturas

1. Data Mining

Mineração de Dados é atualmente o termo mais popular e amplamente utilizado, focando na aplicação de algoritmos para extração de padrões.

✅ Vantagens

  • Ampla aceitação acadêmica e corporativa
  • Grande variedade de algoritmos disponíveis
  • Comunidade ativa de pesquisa

❌ Limitações

  • Foco excessivo em aspectos técnicos
  • Pode negligenciar o contexto de negócio

Exemplo em Python:

2. Extração de Conhecimento

Termo que enfatiza a transformação de dados brutos em conhecimento acionável para tomada de decisão.

Característica principal: Ênfase no valor do conhecimento gerado rather than apenas na técnica.

Exemplo em R:

3. Descoberta de Informação

Abordagem que se concentra na descoberta de informações previamente desconhecidas e potencialmente úteis.

Atenção: Diferente de recuperação de informação, que busca informações já conhecidas.

Fórmula matemática representativa: \(I = -\log_2 P(x)\) onde \(I\) é a informação e \(P(x)\) é a probabilidade do evento.

4. Arqueologia de Dados

Metáfora que compara a descoberta de padrões à arqueologia, onde se “escava” dados para encontrar “artefatos” valiosos.

Perspectiva única: Trata dados como sítio arqueológico onde conhecimentos estão “enterrados”.

Exemplo em Python:

5. Processamento de Dados

Termo mais amplo que engloba todas as etapas de transformação de dados em informação útil.

✅ Abrangência

  • Inclui coleta, limpeza, transformação
  • Aborda todo o ciclo de vida dos dados
  • Visão holística do processo

❌ Generalização

  • Pode ser muito genérico
  • Não específico para descoberta de padrões

📊 Comparação entre as Abordagens

Nomenclatura Foco Principal Período de Popularidade Aplicação Típica
Data Mining Algoritmos e técnicas 1990s – Presente Corporativa/Acadêmica
Extração de Conhecimento Valor de negócio 1980s-1990s Gestão do Conhecimento
Descoberta de Informação Novidade e utilidade 1990s Pesquisa de Informação
Arqueologia de Dados Metáfora de descoberta 2000s Educacional/Metafórica
Processamento de Dados Processo completo 1970s-Presente TI/Infraestrutura

Conclusão

As diferentes nomenclaturas refletem a evolução da disciplina e diferentes ênfases metodológicas. Enquanto Data Mining domina atualmente o cenário técnico, conceitos como Extração de Conhecimento mantêm relevância ao destacar o valor de negócio.

A equação fundamental permanece: \(Dados + Métodos + Contexto = Conhecimento\)

Qual Termo Usar?

Depende do contexto e audiência:

  • Data Mining: Comunidade técnica, artigos científicos
  • Extração de Conhecimento: Gestores, tomadores de decisão
  • Descoberta de Informação: Contextos de biblioteconomia/CI
  • Arqueologia de Dados: Contextos educacionais/metafóricos
  • Processamento de Dados: Visão ampla de infraestrutura

Referências Bibliográficas

FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data mining to knowledge discovery in databases. AI Magazine, 1996.

HAN, J.; KAMBER, M.; PEI, J. Data mining: concepts and techniques. Morgan Kaufmann, 2011.

WITTEN, I. H.; FRANK, E. Data Mining: Practical Machine Learning Tools and Techniques. Morgan Kaufmann, 2005.

Processo de KDD – Knowledge Discovery in Databases

O KDD é um processo iterativo e interativo para extração de conhecimento significativo de grandes volumes de dados. Consiste em múltiplas etapas que vão desde o entendimento do domínio até a implementação do conhecimento descoberto.

Visão Geral do Processo

O processo de KDD pode ser representado pela fórmula: \(KDD = F(D, M, K)\) onde:

  • \(D\) = Dados
  • \(M\) = Métodos de Mineração
  • \(K\) = Conhecimento

As 9 Etapas do Processo KDD

1. Compreensão do Domínio

Desenvolver uma compreensão do domínio de aplicação e do conhecimento prévio relevante, identificando o objetivo do processo KDD do ponto de vista do cliente.

2. Seleção do Conjunto de Dados

Criar um conjunto de dados-alvo, selecionando um conjunto de dados ou concentrando-se num subconjunto de variáveis ou amostras de dados.

3. Limpeza e Pré-processamento

Operações incluem remoção de ruído, tratamento de dados faltantes e consideração de aspectos temporais.

Técnicas Comuns:

  • Imputação de valores missing
  • Normalização de dados
  • Detecção de outliers

4. Redução e Projeção

Encontrar características úteis para representar os dados através de redução de dimensionalidade ou transformações.

5. Escolha da Tarefa de Mineração

Corresponder os objetivos do processo KDD a métodos específicos como classificação, regressão, agrupamento, etc.

Tarefas comuns: Classificação, Regressão, Clusterização, Associação, Detecção de Anomalias

6. Seleção de Algoritmos

Escolha dos algoritmos de mineração de dados e métodos apropriados para a pesquisa de padrões.

7. Mineração de Dados

Prospecção de dados para procurar padrões de interesse em formas representacionais específicas.

Atenção: Esta etapa requer validação cruzada para evitar overfitting.

8. Interpretação de Padrões

Interpretação dos padrões minerados, possivelmente retornando a etapas anteriores para iteração.

9. Implementação do Conhecimento

Utilizar o conhecimento descoberto, documentar e comunicar às partes interessadas.

Importante: Verificar e resolver conflitos com conhecimentos previamente extraídos.

Conclusão

O processo de KDD é fundamental para transformar dados brutos em conhecimento acionável. Cada etapa é crucial e o processo é iterativo, permitindo refinamentos contínuos baseados nos insights obtidos.

A equação fundamental do KDD pode ser expressa como: \(K = F(D, P, M)\) onde \(P\) representa os parâmetros do processo.

Etapas do processo de KDD

      \(Dados\overset{selecao}{\rightarrow} \)
      \(Dados\hspace{0.2cm}de\hspace{0.2cm}interesse\overset{pre\hspace{0.2cm}processamento}{\rightarrow}\)
      \(Dados\hspace{0.2cm}pre\hspace{0.2cm}processados\overset{formatacao}{\rightarrow} \)
      \(Dados\hspace{0.2cm}formatados\overset{mineracao\hspace{0.2cm}de\hspace{0.2cm}dados}{\rightarrow}\)
      \(Padroes\overset{interpretacao\hspace{0.2cm}avaliacao}{\rightarrow}conhecimento\)

Referências Bibliográficas

FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data mining to knowledge discovery in databases. AI Magazine, 1996.

HAN, J.; KAMBER, M.; PEI, J. Data mining: concepts and techniques. Morgan Kaufmann, 2011.