Descoberta de conhecimento e Aprendizado de Máquina

cientista

Descoberta de conhecimento em bancos de dados

KDD é o processo de várias etapas, não trivial , interativo e iterativo.

  • Interativo porquê existe interações homem e máquina.
  • Iterativo porquê sofre refinamentos sucessívos.
  • Objetivo do processo do KDD é a busca pela forma da representação do conhecimento por meio da identificação de padrões (compreensíveis, válidos ao contexto, novos e úteis)

No KDD devemos manter o foco na descoberta de padrões significativos (não apenas técnico, mas também na tomada de decisão).

A busca por padrões úteis nos dados já recebeu nome de:

  • Descoberta de informação,
  • Data Mining (Mineração de Dados),
  • extração de conhecimento,
  • descoberta de informação,
  • arqueologia de dados e
  • processamento de dados

O KDD pode ser dividido em 9 etapas:

  1. Desenvolver um conhecimento prévio para identificar o objetivo do ponto de vista do cliente e compreender a sua aplicação prática no mundo real.
  2. Selecionar um conjunto de dados de onde pretendemos extrair o conhecimento
  3. Limpeza de dados, pré-processamento, remoção de ruídos. Nesta faze utilizamos o Pandas.
  4. Redução e projeção de dados. Encontrar características úteis que representa a função do objetivo da tarefa.
  5. Corrrespodência dos objetivos do processo KDD (primeiros passos), nesta etapa podemos fazer um resumo, classificação por classes, regressão, agrupamento etc.
  6. Análise exploratória e seleção de modelos e hipóteses: Decidir que modelos e parâmetros serão mais apropriados na extração dos padrões.
  7. Prospecção de dados usando aprendizado de máquina
  8. Interpretação de padrões minerados, regressando possivelmente aos passos anteriores.
  9. Atuar na fronteira do conhecimento descoberto ao utilizar diretamente o conhecimento, classificando o conhecimento em outro sistema para ação futura, ou, simplesmente, documentando e comunicando às partes interessadas. Esse processo inclui também a verificação e a resolução de conflitos potenciais com conhecimentos previamente obtidos.

Técnicas Principais:

  • Classificação, hierarquização dos dados baseada em estágios de decisão (nós) e na separação de classes e subconjuntos. (ex: árvores de decisão)
  • Clusterização, se baseia no método do vizinho mais próximo, combina e compara atributos para estabelecer hierarquia de semelhança. (ex: K-means)
  • Algorítmos genéticos, são métodos gerais de busca e otimização, inspirados na Teoria da Evolução, na qual, a cada nova geração, herda características de seus descendentes possibilitando a evolução e aprimoramento.
  • Associação, estabelece uma correlação estatística entre atributos de dados e conjunto de dados. (ex: regras “se…então”)
  • Redes Neurais Artificiais, são modelos inspirados na fisiologia do cérebro, onde o conhecimento é fruto do mapa das conexões neuronais. As conexões são fruto do somatório de pesos calculados no treinamento de máquina.
  • Detecção de anomalias

 

Pode ser Classificado:

  • Tarefas Preditivas
    • Classificação
    • Regresção
  • Tarefas Descritivas
    • Regras de Associação
    • Clustering
    • Sumarização
    • Outras

Pode usar algoritmos de Aprendizado de Máquina, mas também métodos estatísticos e de banco de dados.

O KDD envolve as disciplinas :

  • estatística,
  • banco de dados,
  • inteligência artificial e
  • aprendizado de máquina.

Aprendizado de Máquina

É uma ferramenta/disciplina que tem crescido e se desenvolvido em conjunto com o KDD possibilitando soluções tecnológicas inovadoras na busca de padrões.

Pirâmide do Conhecimento

DADO INFORMAÇÃO CONHECIMENTO SABEDORIA
Dados no Big Data Dados de Interesse Dados processados Dados formatados Dados com contexto Conhecimento

Fluxo KDD

Coleta de Dados Seleção Pré-Processamento Transformação Mineração de Dados Interpretação ou Avaliação
  • Dado bruto
  • Selecionar um sub-conjunto de dados (data set)
  • Seleçãode dados
  • Limpezade Dados
  • Integração dos Dados
  • Transformação dos Dados
  • Redução dos Dados
  • Normalização
  • Agregação
  • Criação de novos atributos
  • Redução
  • Sintetização dos dados
  • Criar modelos
  • Aplicar técnicas de Mineração de Dados
  • Descobrir novos padrões de forma autonoma
  • (Preditiva ou Descritiva)
  • avaliação estatística
  • avaliação dos profissionais de negócio

CRISP_DM

Dado Entendimento do Negócio Entendimento dos Dados Preparação de Dados Modelagem Avaliação Implantação

Início deste site

Retornando ao Rio de Janeiro

Falaremos hoje do início deste site, minhas motivações e minhas decisões com base no que era mais importante e viável no momento.

 

Início deste site

Após criar um Editor de Texto que desenvolvi e utilizava no meu trabalho, desejei compartilhar com meus colegas de forma segura, onde editávamos textos e extraímos textos de imagens.

O meu objetivo inicial com este site era apenas compartilhar o Editor de Texto, Relatórios Dinâmicos e KanBan com meus colegas de trabalho e organizar algumas informações do trabalho.

Este site passou por diferentes tecnologias (Flask,React,fastHTML), contudo o que você vê está neste site está em WordPress (HTML, CSS e JavaScript).

Cada etapa desse processo trouxe desafios e ao longo dos anos aprendi muito e continuo aprendendo a cada dia.

Paralelamente ainda mantenho meu laboratório fastHTML em meu computador localmente pois me permite estudo (python no back-end, módulos python, API’s, HTML, CSS e JavaScript)

Trabalhei o conceitos como design responsivo, contudo apresentar gráficos complexos no site pelo wordpress demora uns 3 segundos para carregar a pagina no usuário, após o carregamento o fedback é ótimo, também esbarro na dimensão para um celular, pois gráficos do tipo histórico são longos horizontalmente, por isso peço desculpas mas tive que desencanar um pouco para apresentar oe resultados. Alguns sites apresentam com o PowerBI mas para isso o custo mensal é muito maior.

A decisão de utilizar o WordPress foi pela facilidade de escrever as postagens sobre o que venho estudadno atualmente.

 

Quando descobri a fonte de dados GOV.BR

Mantenho o foco no estudo de análise de dados com Python , desenvolvolvo um projeto em fastHTML localmente que é meu laboratório front-end (biblioteca de componentes em python, JavaScript e CSS) + back-end (api’s + módulos python criados por mim + base de dados) e no  HostGator utilizo apenas o WordPress onde posto os resultados da minha análise de dados.

Você pode visualizar no item do menu Análise de Dados, os gráficos que desenvolvi com HTML, JavaScrip, CSS  e JSON a partir de datset’s da FONTE DE DADOS do GOV.BR , e terá acesso ao código no GitHub.

A incorporação do JSON ou XML no HTML permitiu que após o carregamento do HTML o feedbak seja imediato no gráfico dinâmico, pois os filtros são processados no cliente (front-end).

O Governo Federal disponibilizou diversos dados em formato acessível, estruturado, com layout , validado por órgão competente e sem dados sensíveis (Lei Geral de Proteção dos Dados – Lei nº 13.709/2018), permitindo que estudantes, cientistas, jornalistas e pesquisadores pudessem fazer a análise destes dados e correlacionar com outros datasets, o que me estimulou ao estudo de um Data Warehouse e BI.

Neste ecosistema venho me desenvolvendo profissionalmente pois tenho liberdade criativa para escolher a tecnologia que desejo trabalhar e ao postar o que aprendi com vocês organizo as minhas ideias .

Até aqui tenho dado preferência a tecnologias de software livre mas para analizar um DW terei que estudar o Power BI para apresentar dashborad’s a fim de navegar nas diversas dimensões dos cubos.

 

Ambiente de Trabalho

O site tem como tema ambiente urbano mas dentro deste tema quero proporcionar aos usuários um ambiente de trabalho clen.

Durante uma avalanche de trabalho nossa mesa fica desorganizada e caótica, o que nos leva nos intervalos retirar tudo que não é mais nescessário da nossa mesa e ao deixar apenas o essencial na mesa o ambiente de trabalho imediatamente melhora.

É saudável termos um ambiente organizado e limpo.

Todos nós também queremos um ambiente de trabalho que nos traga bem estar, por isso trago imagens no estilo mangá com personagens amigáveis.

Desejo proporcionar aos usuários a oportunidade de se teletransportar para um ambiente acolhedor onde possamos tomar um cafézinho enquanto ouvimos uma rádio e adimiramos a imagem da cidade do Rio de Janeiro pela janela do escritório.

Espero também que as ferramentas de trabalho que estou disponibilizando lhe poupe muito tempo em suas tarefas e possa curtir mais a sua vida e a sua família.

Lembre-se sempre que a sua saúde é o mais importante.

 

Nosso Logotipo

A programação pode ser pensada em módulos e analogamente um prédio e uma cidade é construída por tijolos.

O cubo laranja representa a construção de escritórios virtuais em todo o mundo mas todos conectados pelo bem comum.

 

Pensando nos Professores

Atualmente adicionei na Mesa de Trabalho > Google > Class Room que é uma plataforma para professores compartilharem informações com seus alunos.
Mais recentemente adicionei na Mesa de Trabalho > Ferramentas > Leitor de Cartão Resposta que usa a tecnologia OMR para ler as respostas de um cartão resposta impresso, espero ajudar os professores a diminuir seu tempo nas correções de provas utilizando uma impressora e um scaner de mesa. Garantimos a segurança dos dados pois usamos javascript que roda em sua máquina, desta forma nenhuma informação sai do seu computador. A imagem é processada no computador do usuário, o que chamamos de offline.

Trabalho em Grupo

Minhas novas ferramentas Fómulários Dinâmicos e Kanban agora podem ser salvos em Json e compartilhados com colegas de trabalho.
Os formulários geram relatórios padronizados, seria para casos em que as informações são parecidas e o contexto conhecido, neste caso o formulário deve ser montado e aprovado pelo grupo para que haja padronização e mais eficiência do grupo.
Também adicionei em Google > Google Calendário pois é uma ferramenta que pode ser pública aos colegas de trabalho.
Exemplo seria a atendente de um consultório médico agendar na agenda do google e na agenda do médico visualizar não apenas a agenda de um consultório mas a união de várias agendas, o que ajuda a evitar conflitos por falta de comunicação no grupo.

 

Conclusão

A identidade deste site vem sendo construída a cada dia, o caminho ter sido longo me trouxe novas habilidades e soluções criativas.

Hoje reconheço as tendências e os modismos o que me faz ser mais direto no meu estudo.

O propósito da Área de Trampo é te ajudar a limpar a sua mesa e deixar o seu dia mais alegre durante o processo.

Antonino Marques Jares