Etapas do KDD

minerador

 

Objetivo do processo do KDD (Knowledge Discovery in Databases) é a busca pela forma da representação do conhecimento por meio da identificação de padrões (compreensíveis, válidos ao contexto, novos e úteis).
KDD é o processo de descoberta de conhecimentos úteis a partir de dados.

O KDD se divide em:

  1. Pré-processamento – dados brutos ➜ dados transformados
  2. Mineração de dados – dados transformados ➜ escolha de algorítimo e treinamento de máquina ➜ padrões
  3. Pós-processamento – padrões ➜ Interpretação ou Avaliação ➜ conhecimento

 

PRÉ-PROCESSAMENTO

Seleção Preparação Transformação
Coleta e Integração Codificação Construção de atributos Limpeza dos dados Partição dos dados
salvar os dados em um repositório local (ETL) Conversões de tipos de dados Renomear colunas e criar novas colunas Complementação de dados ausentes, detecção de ruídos e eliminação de dados inconsistentes Escolha de algorítimo e dividir os dados para treino e teste do treinamento de máquina.

 

 

Algorítimos

Associação Agrupamento Classificação Regressão Linear
Correlaciona a ocorrencia de eventos distintos. Exemplo quando um cliente compra leite e farinha também costuma comprar ovos. O que leva o supermecado colocar estes produtos próximos. Agrupamento é muito utilizado no Marketing para compreender o comportamento de grupos de clientes. O agrupamento é o aprendizado não supervisionado usado para descobrir grupos naturais em dados não rotulados. Classifica após aprender a identificar padrões de exemplos já classificados. Exemplo clássico seria classificar fotos de gatos e cães. Regressão Linear estima uma variável a partir de uma função. Um exemplo seria calcular o valor de um imóvel à venda em um bairro, partindo de uma base de dados que tem histórico de uma imobiliária na região.

 

Saiba mais sobre KDD no post Descoberta de conhecimento e Aprendizado de Máquina

Pandas na análise de dados

Panda em floresta de bambús

Biblioteca Pandas 

A biblioteca Pandas nos ajuda a ler diversos tipos de arquivos, trata-los, tirar redundâncias, resumi-los e visualiza-los em disversas formas.

No primeiro momento é possível que os dados do seu dataset venham com incompletos, registros nulos ou registros mal formatados.

  1. Utilize df.info() para entender onde temos valores nulos e valores não válidos. Exemplo de ‘valor não válido’ seria em uma informação na coluna altura de um funcionário onde encontramos o valor de 9.5 metros.  Fica claro neste caso que não temos uma pessoa de 9 metros e meio, portanto temos uma informação incorreta que deve ser descartada ou alterada.
  2. Utilize dropna() quando os valores de linhas com dados ausentes são irrelevantes. Ex.: Não impacta apagarmos 30 linhas de um dataset de 100.000 linhas.
  3. Utilize df.fillna(valor) quando você quer preservar agumas das linhas/colunas que tem valores nulos. Ex:. Vamos dizer que o dataset tenha 1% de registros com valores nulos na coluna salário, poderíamos subistituir por um valor de salário médio a fim de preservar as demais informações nestas linhas (registros). É importante sempre comentar e documentar esses tipos de abordagem.

Sintetizar as informações relevantes

  • Para visualizarmos melhor é importante aplicar filtros e agregar os dados. Exemplo de Filtro: Se o dataset se refere a um histórico de preço de combustível de todo o Brasil e nosso interesse de pesquisa é apenas no Rio de Janeiro podemos filtrar pelo RJ.
  • Quando trabalhamos com dados numéricos em escalas diferentes, é importante aplicar um processo conhecido como normalização. Basicamente é pegar dados que podem ser organizados em uma escala e transforma-los em números. Exemplo: Escala de urgência “urgente”,”media” e “baixa” pode ser normalizado pois existe uma ordem intrínseca, já no caso de cor “branca”, “vermelha” e “azul” não podemos fazer uma normalização pois não existe uma ordem intrínseca .

Os Dados ainda podem ser classificados como:

 

Dados primários

  • São aqueles coletados de primeira mão, ou seja, dados que ainda não foram publicados, autênticos, sem interferência humana.
  • Entre as fontes de dados primários, temos questionários e entrevistas.

Dados secundários

  • São aqueles dados que já foram publicados de alguma forma, ou seja, sofreram alguma interferência humana.
  • Entre as fontes de dados secundários, temos: livros e jornais.

 

Dados qualitativos

  • São dados não numéricos, em sua maioria, normalmente descritivos ou nominais. Apresentam-se, em geral, em formato de textos, sentenças ou rótulos.

Dados quantitativos

  • São os dados numéricos, que podem ser matematicamente computados. Essa categoria de dado mede diferentes escalas que podem ser nominais, ordinais, intervalares e proporcionais. Na maioria dos casos, esses dados resultam da medição de algum aspecto ou fenômeno.

 

Método de coleta dos dados:

  • Podemos coletar dados qualitativos por perguntas abertas e os métodos envolvidos para seu tratamento são grupos de foco, de discussão e entrevistas.
  • Podemos coletar dados quantitativos por surveys (Pesquisas/Questionários), as queries(Consultas a Bancos de Dados), o consumo de relatórios (Reports) e os scrapers (mineração de dados com bibliotecas BeautifulSoup e Scrapy)
  • As categorias de dados não são mutuamente exclusivas, pois é muito comum encontrar relatórios ou fazer entrevistas cujo resultado contenha tanto dados quantitativos e qualitativos.

 

Regulação de dados

Ainda podemos encontrar pontos fora da curva (outliers – muito maiores). Podemos remover os dados destoantes do conjunto ou fazermos uma regularização que é trazer um valor proporcional pela fórmula valor_observado/(valor_maximo – valor_mínimo) chegando a um valor entre 0 e 1.