Arquivo de análise-de-dados - Página 2 de 6

A disciplina de encontrar padrões úteis em dados tem evoluído ao longo do tempo, recebendo diversas denominações que refletem diferentes perspectivas e abordagens metodológicas.

Contexto Histórico e Evolução Terminológica

O processo de descoberta de conhecimento em bancos de dados pode ser representado pela fórmula: \(KDD = P(D, M, K)\) onde:

\(D\) = Dados
\(M\) = Métodos
\(P\) = Processo
\(K\) = Conhecimento

As 5 Principais Nomenclaturas

1. Data Mining

Mineração de Dados é atualmente o termo mais popular e amplamente utilizado, focando na aplicação de algoritmos para extração de padrões.

✅ Vantagens

Ampla aceitação acadêmica e corporativa
Grande variedade de algoritmos disponíveis
Comunidade ativa de pesquisa

❌ Limitações

Foco excessivo em aspectos técnicos
Pode negligenciar o contexto de negócio

Exemplo em Python:
Python
from sklearn.cluster import KMeans
import pandas as pd

# Exemplo simples de data mining - clustering
dados = pd.read_csv('dados_clientes.csv')
kmeans = KMeans(n_clusters=3)
grupos = kmeans.fit_predict(dados[['idade', 'renda', 'gasto_mensal']])

print("Padrões encontrados:", grupos)

				
					
				1
2
3
4
5
6
7
8
9

						from sklearn.cluster import KMeans
import pandas as pd
 
# Exemplo simples de data mining - clustering
dados = pd.read_csv('dados_clientes.csv')
kmeans = KMeans(n_clusters=3)
grupos = kmeans.fit_predict(dados[['idade', 'renda', 'gasto_mensal']])
 
print("Padrões encontrados:", grupos)

					

			

2. Extração de Conhecimento

Termo que enfatiza a transformação de dados brutos em conhecimento acionável para tomada de decisão.

Característica principal: Ênfase no valor do conhecimento gerado rather than apenas na técnica.

Exemplo em R:
R
# Extração de conhecimento através de análise de associação
library(arules)

transacoes <- read.transactions("dados_transacoes.csv", sep = ",")
regras <- apriori(transacoes, parameter = list(supp = 0.01, conf = 0.8))

# Conhecimento extraído: regras de associação
inspect(regras[1:5])

				
					
				1
2
3
4
5
6
7
8

						# Extração de conhecimento através de análise de associação
library(arules)
 
transacoes <- read.transactions("dados_transacoes.csv", sep = ",")
regras <- apriori(transacoes, parameter = list(supp = 0.01, conf = 0.8))
 
# Conhecimento extraído: regras de associação
inspect(regras[1:5])

					

			

3. Descoberta de Informação

Abordagem que se concentra na descoberta de informações previamente desconhecidas e potencialmente úteis.

Atenção: Diferente de recuperação de informação, que busca informações já conhecidas.

Fórmula matemática representativa: \(I = -\log_2 P(x)\) onde \(I\) é a informação e \(P(x)\) é a probabilidade do evento.

4. Arqueologia de Dados

Metáfora que compara a descoberta de padrões à arqueologia, onde se “escava” dados para encontrar “artefatos” valiosos.

Perspectiva única: Trata dados como sítio arqueológico onde conhecimentos estão “enterrados”.

Exemplo em Python:
Python
import numpy as np
import matplotlib.pyplot as plt

# Simulando "escavação" de padrões em dados temporais
dados_temporais = np.random.randn(1000).cumsum()

# "Arqueologia" - encontrando tendências ocultas
media_movel = pd.Series(dados_temporais).rolling(window=50).mean()
plt.plot(dados_temporais, alpha=0.3, label='Dados Brutos')
plt.plot(media_movel, label='Padrão Descoberto')
plt.legend()
plt.title('Arqueologia de Dados - Descobrindo Tendências')
plt.show()

				
					
				1
2
3
4
5
6
7
8
9
10
11
12
13

						import numpy as np
import matplotlib.pyplot as plt
 
# Simulando "escavação" de padrões em dados temporais
dados_temporais = np.random.randn(1000).cumsum()
 
# "Arqueologia" - encontrando tendências ocultas
media_movel = pd.Series(dados_temporais).rolling(window=50).mean()
plt.plot(dados_temporais, alpha=0.3, label='Dados Brutos')
plt.plot(media_movel, label='Padrão Descoberto')
plt.legend()
plt.title('Arqueologia de Dados - Descobrindo Tendências')
plt.show()

					

			

5. Processamento de Dados

Termo mais amplo que engloba todas as etapas de transformação de dados em informação útil.

✅ Abrangência

Inclui coleta, limpeza, transformação
Aborda todo o ciclo de vida dos dados
Visão holística do processo

❌ Generalização

Pode ser muito genérico
Não específico para descoberta de padrões

📊 Comparação entre as Abordagens

Nomenclatura	Foco Principal	Período de Popularidade	Aplicação Típica
Data Mining	Algoritmos e técnicas	1990s – Presente	Corporativa/Acadêmica
Extração de Conhecimento	Valor de negócio	1980s-1990s	Gestão do Conhecimento
Descoberta de Informação	Novidade e utilidade	1990s	Pesquisa de Informação
Arqueologia de Dados	Metáfora de descoberta	2000s	Educacional/Metafórica
Processamento de Dados	Processo completo	1970s-Presente	TI/Infraestrutura

Conclusão

As diferentes nomenclaturas refletem a evolução da disciplina e diferentes ênfases metodológicas. Enquanto Data Mining domina atualmente o cenário técnico, conceitos como Extração de Conhecimento mantêm relevância ao destacar o valor de negócio.

A equação fundamental permanece: \(Dados + Métodos + Contexto = Conhecimento\)

Qual Termo Usar?

Depende do contexto e audiência:

Data Mining: Comunidade técnica, artigos científicos
Extração de Conhecimento: Gestores, tomadores de decisão
Descoberta de Informação: Contextos de biblioteconomia/CI
Arqueologia de Dados: Contextos educacionais/metafóricos
Processamento de Dados: Visão ampla de infraestrutura

Referências Bibliográficas

FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data mining to knowledge discovery in databases. AI Magazine, 1996.

HAN, J.; KAMBER, M.; PEI, J. Data mining: concepts and techniques. Morgan Kaufmann, 2011.

WITTEN, I. H.; FRANK, E. Data Mining: Practical Machine Learning Tools and Techniques. Morgan Kaufmann, 2005.

O KDD é um processo iterativo e interativo para extração de conhecimento significativo de grandes volumes de dados. Consiste em múltiplas etapas que vão desde o entendimento do domínio até a implementação do conhecimento descoberto.

Visão Geral do Processo

O processo de KDD pode ser representado pela fórmula: \(KDD = F(D, M, K)\) onde:

\(D\) = Dados
\(M\) = Métodos de Mineração
\(K\) = Conhecimento

As 9 Etapas do Processo KDD

1. Compreensão do Domínio

Desenvolver uma compreensão do domínio de aplicação e do conhecimento prévio relevante, identificando o objetivo do processo KDD do ponto de vista do cliente.

2. Seleção do Conjunto de Dados

Criar um conjunto de dados-alvo, selecionando um conjunto de dados ou concentrando-se num subconjunto de variáveis ou amostras de dados.

3. Limpeza e Pré-processamento

Operações incluem remoção de ruído, tratamento de dados faltantes e consideração de aspectos temporais.

Técnicas Comuns:

Imputação de valores missing
Normalização de dados
Detecção de outliers

4. Redução e Projeção

Encontrar características úteis para representar os dados através de redução de dimensionalidade ou transformações.

5. Escolha da Tarefa de Mineração

Corresponder os objetivos do processo KDD a métodos específicos como classificação, regressão, agrupamento, etc.

Tarefas comuns: Classificação, Regressão, Clusterização, Associação, Detecção de Anomalias

6. Seleção de Algoritmos

Escolha dos algoritmos de mineração de dados e métodos apropriados para a pesquisa de padrões.

7. Mineração de Dados

Prospecção de dados para procurar padrões de interesse em formas representacionais específicas.

Atenção: Esta etapa requer validação cruzada para evitar overfitting.

8. Interpretação de Padrões

Interpretação dos padrões minerados, possivelmente retornando a etapas anteriores para iteração.

9. Implementação do Conhecimento

Utilizar o conhecimento descoberto, documentar e comunicar às partes interessadas.

Importante: Verificar e resolver conflitos com conhecimentos previamente extraídos.

Conclusão

O processo de KDD é fundamental para transformar dados brutos em conhecimento acionável. Cada etapa é crucial e o processo é iterativo, permitindo refinamentos contínuos baseados nos insights obtidos.

A equação fundamental do KDD pode ser expressa como: \(K = F(D, P, M)\) onde \(P\) representa os parâmetros do processo.

Etapas do processo de KDD

\(Dados\overset{selecao}{\rightarrow} \)

\(Dados\hspace{0.2cm}de\hspace{0.2cm}interesse\overset{pre\hspace{0.2cm}processamento}{\rightarrow}\)

\(Dados\hspace{0.2cm}pre\hspace{0.2cm}processados\overset{formatacao}{\rightarrow} \)

\(Dados\hspace{0.2cm}formatados\overset{mineracao\hspace{0.2cm}de\hspace{0.2cm}dados}{\rightarrow}\)

\(Padroes\overset{interpretacao\hspace{0.2cm}avaliacao}{\rightarrow}conhecimento\)

Referências Bibliográficas

FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data mining to knowledge discovery in databases. AI Magazine, 1996.

HAN, J.; KAMBER, M.; PEI, J. Data mining: concepts and techniques. Morgan Kaufmann, 2011.

Encontrar Padrões Úteis em Dados – Nomenclaturas

Contexto Histórico e Evolução Terminológica

As 5 Principais Nomenclaturas

1. Data Mining

✅ Vantagens

❌ Limitações

2. Extração de Conhecimento

3. Descoberta de Informação

4. Arqueologia de Dados

5. Processamento de Dados

✅ Abrangência

❌ Generalização

📊 Comparação entre as Abordagens

Conclusão

Qual Termo Usar?

Referências Bibliográficas

Processo de KDD – Knowledge Discovery in Databases

Visão Geral do Processo

As 9 Etapas do Processo KDD

1. Compreensão do Domínio

2. Seleção do Conjunto de Dados

3. Limpeza e Pré-processamento

Técnicas Comuns:

4. Redução e Projeção

5. Escolha da Tarefa de Mineração

6. Seleção de Algoritmos

7. Mineração de Dados

8. Interpretação de Padrões

9. Implementação do Conhecimento

Conclusão

Etapas do processo de KDD

Referências Bibliográficas