Encontrar Padrões Úteis em Dados – Nomenclaturas

A disciplina de encontrar padrões úteis em dados tem evoluído ao longo do tempo, recebendo diversas denominações que refletem diferentes perspectivas e abordagens metodológicas.

Contexto Histórico e Evolução Terminológica

O processo de descoberta de conhecimento em bancos de dados pode ser representado pela fórmula: \(KDD = P(D, M, K)\) onde:

  • \(D\) = Dados
  • \(M\) = Métodos
  • \(P\) = Processo
  • \(K\) = Conhecimento

As 5 Principais Nomenclaturas

1. Data Mining

Mineração de Dados é atualmente o termo mais popular e amplamente utilizado, focando na aplicação de algoritmos para extração de padrões.

✅ Vantagens

  • Ampla aceitação acadêmica e corporativa
  • Grande variedade de algoritmos disponíveis
  • Comunidade ativa de pesquisa

❌ Limitações

  • Foco excessivo em aspectos técnicos
  • Pode negligenciar o contexto de negócio

Exemplo em Python:

2. Extração de Conhecimento

Termo que enfatiza a transformação de dados brutos em conhecimento acionável para tomada de decisão.

Característica principal: Ênfase no valor do conhecimento gerado rather than apenas na técnica.

Exemplo em R:

3. Descoberta de Informação

Abordagem que se concentra na descoberta de informações previamente desconhecidas e potencialmente úteis.

Atenção: Diferente de recuperação de informação, que busca informações já conhecidas.

Fórmula matemática representativa: \(I = -\log_2 P(x)\) onde \(I\) é a informação e \(P(x)\) é a probabilidade do evento.

4. Arqueologia de Dados

Metáfora que compara a descoberta de padrões à arqueologia, onde se “escava” dados para encontrar “artefatos” valiosos.

Perspectiva única: Trata dados como sítio arqueológico onde conhecimentos estão “enterrados”.

Exemplo em Python:

5. Processamento de Dados

Termo mais amplo que engloba todas as etapas de transformação de dados em informação útil.

✅ Abrangência

  • Inclui coleta, limpeza, transformação
  • Aborda todo o ciclo de vida dos dados
  • Visão holística do processo

❌ Generalização

  • Pode ser muito genérico
  • Não específico para descoberta de padrões

📊 Comparação entre as Abordagens

Nomenclatura Foco Principal Período de Popularidade Aplicação Típica
Data Mining Algoritmos e técnicas 1990s – Presente Corporativa/Acadêmica
Extração de Conhecimento Valor de negócio 1980s-1990s Gestão do Conhecimento
Descoberta de Informação Novidade e utilidade 1990s Pesquisa de Informação
Arqueologia de Dados Metáfora de descoberta 2000s Educacional/Metafórica
Processamento de Dados Processo completo 1970s-Presente TI/Infraestrutura

Conclusão

As diferentes nomenclaturas refletem a evolução da disciplina e diferentes ênfases metodológicas. Enquanto Data Mining domina atualmente o cenário técnico, conceitos como Extração de Conhecimento mantêm relevância ao destacar o valor de negócio.

A equação fundamental permanece: \(Dados + Métodos + Contexto = Conhecimento\)

Qual Termo Usar?

Depende do contexto e audiência:

  • Data Mining: Comunidade técnica, artigos científicos
  • Extração de Conhecimento: Gestores, tomadores de decisão
  • Descoberta de Informação: Contextos de biblioteconomia/CI
  • Arqueologia de Dados: Contextos educacionais/metafóricos
  • Processamento de Dados: Visão ampla de infraestrutura

Referências Bibliográficas

FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data mining to knowledge discovery in databases. AI Magazine, 1996.

HAN, J.; KAMBER, M.; PEI, J. Data mining: concepts and techniques. Morgan Kaufmann, 2011.

WITTEN, I. H.; FRANK, E. Data Mining: Practical Machine Learning Tools and Techniques. Morgan Kaufmann, 2005.

Descoberta de conhecimento e Aprendizado de Máquina

cientista

Descoberta de conhecimento em bancos de dados

KDD é o processo de várias etapas, não trivial , interativo e iterativo.

  • Interativo porquê existe interações homem e máquina.
  • Iterativo porquê sofre refinamentos sucessívos.
  • Objetivo do processo do KDD é a busca pela forma da representação do conhecimento por meio da identificação de padrões (compreensíveis, válidos ao contexto, novos e úteis)

No KDD devemos manter o foco na descoberta de padrões significativos (não apenas técnico, mas também na tomada de decisão).

A busca por padrões úteis nos dados já recebeu nome de:

  • Descoberta de informação,
  • Data Mining (Mineração de Dados),
  • extração de conhecimento,
  • descoberta de informação,
  • arqueologia de dados e
  • processamento de dados

O KDD pode ser dividido em 9 etapas:

  1. Desenvolver um conhecimento prévio para identificar o objetivo do ponto de vista do cliente e compreender a sua aplicação prática no mundo real.
  2. Selecionar um conjunto de dados de onde pretendemos extrair o conhecimento
  3. Limpeza de dados, pré-processamento, remoção de ruídos. Nesta faze utilizamos o Pandas.
  4. Redução e projeção de dados. Encontrar características úteis que representa a função do objetivo da tarefa.
  5. Corrrespodência dos objetivos do processo KDD (primeiros passos), nesta etapa podemos fazer um resumo, classificação por classes, regressão, agrupamento etc.
  6. Análise exploratória e seleção de modelos e hipóteses: Decidir que modelos e parâmetros serão mais apropriados na extração dos padrões.
  7. Prospecção de dados usando aprendizado de máquina
  8. Interpretação de padrões minerados, regressando possivelmente aos passos anteriores.
  9. Atuar na fronteira do conhecimento descoberto ao utilizar diretamente o conhecimento, classificando o conhecimento em outro sistema para ação futura, ou, simplesmente, documentando e comunicando às partes interessadas. Esse processo inclui também a verificação e a resolução de conflitos potenciais com conhecimentos previamente obtidos.

Técnicas Principais:

  • Classificação, hierarquização dos dados baseada em estágios de decisão (nós) e na separação de classes e subconjuntos. (ex: árvores de decisão)
  • Clusterização, se baseia no método do vizinho mais próximo, combina e compara atributos para estabelecer hierarquia de semelhança. (ex: K-means)
  • Algorítmos genéticos, são métodos gerais de busca e otimização, inspirados na Teoria da Evolução, na qual, a cada nova geração, herda características de seus descendentes possibilitando a evolução e aprimoramento.
  • Associação, estabelece uma correlação estatística entre atributos de dados e conjunto de dados. (ex: regras “se…então”)
  • Redes Neurais Artificiais, são modelos inspirados na fisiologia do cérebro, onde o conhecimento é fruto do mapa das conexões neuronais. As conexões são fruto do somatório de pesos calculados no treinamento de máquina.
  • Detecção de anomalias

 

Pode ser Classificado:

  • Tarefas Preditivas
    • Classificação
    • Regresção
  • Tarefas Descritivas
    • Regras de Associação
    • Clustering
    • Sumarização
    • Outras

Pode usar algoritmos de Aprendizado de Máquina, mas também métodos estatísticos e de banco de dados.

O KDD envolve as disciplinas :

  • estatística,
  • banco de dados,
  • inteligência artificial e
  • aprendizado de máquina.

Aprendizado de Máquina

É uma ferramenta/disciplina que tem crescido e se desenvolvido em conjunto com o KDD possibilitando soluções tecnológicas inovadoras na busca de padrões.

Pirâmide do Conhecimento

DADO INFORMAÇÃO CONHECIMENTO SABEDORIA
Dados no Big Data Dados de Interesse Dados processados Dados formatados Dados com contexto Conhecimento

Fluxo KDD

Coleta de Dados Seleção Pré-Processamento Transformação Mineração de Dados Interpretação ou Avaliação
  • Dado bruto
  • Selecionar um sub-conjunto de dados (data set)
  • Seleçãode dados
  • Limpezade Dados
  • Integração dos Dados
  • Transformação dos Dados
  • Redução dos Dados
  • Normalização
  • Agregação
  • Criação de novos atributos
  • Redução
  • Sintetização dos dados
  • Criar modelos
  • Aplicar técnicas de Mineração de Dados
  • Descobrir novos padrões de forma autonoma
  • (Preditiva ou Descritiva)
  • avaliação estatística
  • avaliação dos profissionais de negócio

CRISP_DM

Dado Entendimento do Negócio Entendimento dos Dados Preparação de Dados Modelagem Avaliação Implantação