Descoberta de conhecimento em bancos de dados
|
1 |
Inglês: Knowledge Discovery in Databases - KDD |
KDD é o processo de várias etapas, não trivial , interativo e iterativo.
- Interativo porquê existe interações homem e máquina.
- Iterativo porquê sofre refinamentos sucessívos.
- Objetivo do processo do KDD é a busca pela forma da representação do conhecimento por meio da identificação de padrões (compreensíveis, válidos ao contexto, novos e úteis)
No KDD devemos manter o foco na descoberta de padrões significativos (não apenas técnico, mas também na tomada de decisão).
A busca por padrões úteis nos dados já recebeu nome de:
- Descoberta de informação,
- Data Mining (Mineração de Dados),
- extração de conhecimento,
- descoberta de informação,
- arqueologia de dados e
- processamento de dados
O KDD pode ser dividido em 9 etapas:
- Desenvolver um conhecimento prévio para identificar o objetivo do ponto de vista do cliente e compreender a sua aplicação prática no mundo real.
- Selecionar um conjunto de dados de onde pretendemos extrair o conhecimento
- Limpeza de dados, pré-processamento, remoção de ruídos. Nesta faze utilizamos o Pandas.
- Redução e projeção de dados. Encontrar características úteis que representa a função do objetivo da tarefa.
- Corrrespodência dos objetivos do processo KDD (primeiros passos), nesta etapa podemos fazer um resumo, classificação por classes, regressão, agrupamento etc.
- Análise exploratória e seleção de modelos e hipóteses: Decidir que modelos e parâmetros serão mais apropriados na extração dos padrões.
- Prospecção de dados usando aprendizado de máquina
- Interpretação de padrões minerados, regressando possivelmente aos passos anteriores.
- Atuar na fronteira do conhecimento descoberto ao utilizar diretamente o conhecimento, classificando o conhecimento em outro sistema para ação futura, ou, simplesmente, documentando e comunicando às partes interessadas. Esse processo inclui também a verificação e a resolução de conflitos potenciais com conhecimentos previamente obtidos.
Técnicas Principais:
- Classificação, hierarquização dos dados baseada em estágios de decisão (nós) e na separação de classes e subconjuntos. (ex: árvores de decisão)
- Clusterização, se baseia no método do vizinho mais próximo, combina e compara atributos para estabelecer hierarquia de semelhança. (ex: K-means)
- Algorítmos genéticos, são métodos gerais de busca e otimização, inspirados na Teoria da Evolução, na qual, a cada nova geração, herda características de seus descendentes possibilitando a evolução e aprimoramento.
- Associação, estabelece uma correlação estatística entre atributos de dados e conjunto de dados. (ex: regras “se…então”)
- Redes Neurais Artificiais, são modelos inspirados na fisiologia do cérebro, onde o conhecimento é fruto do mapa das conexões neuronais. As conexões são fruto do somatório de pesos calculados no treinamento de máquina.
- Detecção de anomalias
Pode ser Classificado:
- Tarefas Preditivas
- Classificação
- Regresção
- Tarefas Descritivas
- Regras de Associação
- Clustering
- Sumarização
- Outras
Pode usar algoritmos de Aprendizado de Máquina, mas também métodos estatísticos e de banco de dados.
O KDD envolve as disciplinas :
- estatística,
- banco de dados,
- inteligência artificial e
- aprendizado de máquina.
Aprendizado de Máquina
|
1 |
Inglês: Machine Learning - ML |
É uma ferramenta/disciplina que tem crescido e se desenvolvido em conjunto com o KDD possibilitando soluções tecnológicas inovadoras na busca de padrões.
Pirâmide do Conhecimento |
||||||
| DADO | INFORMAÇÃO | CONHECIMENTO | SABEDORIA | |||
| Dados no Big Data | Dados de Interesse | Dados processados | Dados formatados | Dados com contexto | Conhecimento | |
Fluxo KDD |
||||||
| Coleta de Dados | Seleção | Pré-Processamento | Transformação | Mineração de Dados | Interpretação ou Avaliação | |
|
|
|
|
|
|
|
CRISP_DM |
||||||
| Dado | Entendimento do Negócio | Entendimento dos Dados | Preparação de Dados | Modelagem | Avaliação | Implantação |