Business Inteligence

BigData

Você já parou para pensar como empresas como Netflix sabem exatamente qual filme recomendar, ou como o mercado ajusta os preços dos produtos em tempo real? A resposta para essas perguntas está em um processo fascinante chamado Business Intelligence (BI), ou Inteligência de Negócio. Para quem está começando, o BI pode parecer um conceito abstrato e complexo, repleto de jargões tecnológicos. No entanto, podemos visualizá-lo de forma muito clara como uma escada, onde cada degrau representa um estágio de evolução: partimos do caos dos dados crus e chegamos ao topo, que é a sabedoria para tomar a melhor decisão.

Para ilustrar essa jornada de forma didática, utilizaremos um diagrama de fluxo simples (semelhante a uma UML). Dessa maneira, detalharemos as etapas fundamentais para que a informação se transforme em ação. Vamos percorrer, passo a passo, esse caminho, entendendo o que acontece em cada fase e onde entram em cena ferramentas poderosas como a Estatística, a Classificação de dados e o Aprendizado de Máquina (Machine Learning).

 

PlantUML Syntax:<br />
@startuml<br />
title Business Inteligence \n<br />
start<br />
:1 – Dados;<br />
note left<br />
*Materia-prima bruta<br />
*Numeros soltos<br />
*Registros de vendas<br />
*Cliques e cadastros<br />
end note<br />
:processamento;<br />
:2 – Informacao;<br />
note left<br />
Elaboracao<br />
*Contexto e organizacao<br />
*Estatistica Descritiva<br />
*Medias, somatorios<br />
*Pergunta-se: O que aconteceu?<br />
end note<br />
:analise;<br />
:3 – Conhecimento;<br />
note left<br />
Aprendizado<br />
*Analise e descoberta<br />
*Machine Learning<br />
*Classificacao de padroes<br />
*Estatistica Inferencial<br />
*Pergunta-se: Por que aconteceu?<br />
end note<br />
:sintese;<br />
:4 – Inteligencia;<br />
note left<br />
Aplicacao<br />
*Sintese e apresentacao<br />
*Dashboards interativos<br />
*Machine Learning Preditivo<br />
*Simulacao de cenarios<br />
*Pergunta-se: O que fazer?<br />
end note<br />
:persitencia;<br />
:5 – Experiencia;<br />
note left<br />
*Acumulo e aprendizado<br />
*Memoria institucional<br />
*Ciclos de realimentacao<br />
*Cultura Data Driven<br />
end note<br />
stop<br />
@enduml<br />

 

1 – A Matéria-Prima – Os Dados

A jornada começa com os dados advindos das operações transacionais das operações da empresa. Em outras palavras, pense nos dados como a matéria-prima bruta, o petróleo antes de refiná-lo. São números soltos, textos, registros de vendas, cliques em um site, datas, cadastros de clientes. Sozinhos, eles não contam uma história e podem até confundir. Por exemplo, saber que “vendemos 150 unidades” é apenas um dado. Ele representa o alicerce de tudo, mas ainda não oferece significado prático para o gestor.

2 – O Refinamento – A Informação

O próximo degrau é a Informação. Aqui, aplicamos o primeiro filtro: o processamento. Nós organizamos os dados, limpamos (removendo duplicatas ou erros) e os contextualizamos. Além disso, a Estatística Descritiva entra em ação nessa fase. Utilizamos médias, medianas, somatórios e porcentagens para dar sentido ao caos inicial.
Agora, aquele dado “150 unidades” ganha um contexto mais rico: “Vendemos 150 unidades do Produto X na região Sul durante o mês de janeiro.” Portanto, já temos uma informação clara e objetiva. Ela responde à pergunta “O que aconteceu?”.

PlantUML Syntax:</p>
<p>@startuml</p>
<p>start</p>
<p>:1 – FONTES DE DADOS;</p>
<p>:ETL;<br />
note left</p>
<p>*Extracao<br />
*Transformacao<br />
*Carga<br />
end note</p>
<p>:2 – DATA_WAREHOUSE;<br />
note left</p>
<p>*Historico pequeno<br />
*Granularidade alta<br />
end note</p>
<p>:Contexto;<br />
note left</p>
<p>*separacao<br />
*gregacao<br />
end note</p>
<p>:3 – DATA_MARTS;<br />
note left</p>
<p>*Historico Intermediario<br />
*Granularidade Intermediaria<br />
*Alta capacidade de relatorios<br />
end note</p>
<p>:Visoes;<br />
note left</p>
<p>*separacao<br />
*gregacao<br />
end note</p>
<p>:4 – CUBOS;<br />
note left</p>
<p>*Historico grande<br />
*Granularidade baixa<br />
*Alta capacidade analitica<br />
end note</p>
<p>stop</p>
<p>@enduml</p>
<p>

 

3 – A Descoberta – O Conhecimento

Com a informação em mãos, subimos para o estágio do Conhecimento. Este constitui o coração da análise. Aqui não basta saber o que aconteceu; precisamos entender por que isso aconteceu. Trata-se da fase da análise e elaboração de hipóteses.

PlantUML Syntax:</p>
<p>@startmindmap</p>
<p>title Evolucao da informacao ao longo do tempo \n</p>
<p>* Business Inteligence \n *Como alinhar a empresa em torno do cliente \n *Como integrar as descobertas a cada interacao do cliente ?</p>
<p>** Mediacao<br />
*** Query e reporting\n*Quantos clientes nos perdemos ?<br />
*** OLAP \n *Em quais cidades eles moram ?<br />
** Predicao<br />
*** Data Mining \n *Quais tipos de clientes possuem risco de deixar a empresa ?<br />
*** Real-Time distribution \n *O que devo oferecer ao meu cliente hoje ?</p>
<p>@endmindmap</p>
<p>

É neste degrau que a estatística se aprofunda, deixando de ser apenas descritiva para se tornar inferencial. Além disso, o Aprendizado de Máquina (Machine Learning) começa a brilhar. Utilizamos técnicas para encontrar padrões, correlações e tendências que o olho humano não conseguiria perceber sozinho.
Aplicamos aqui a Classificação. Por exemplo, o sistema pode classificar um cliente como “propenso a comprar” ou “propenso a cancelar” com base no histórico de informações. Do mesmo modo, usamos Machine Learning para responder: “Que fatores levaram ao aumento das vendas em janeiro?” ou “Qual é a tendência de vendas para o próximo mês?”. Em suma, o conhecimento responde à pergunta “Por que isso aconteceu?”.

PlantUML Syntax:</p>
<p>@startuml</p>
<p>skinparam componentStyle uml2</p>
<p>title Capacidade relacionadas ao ambiente Business Inteligence</p>
<p>package “Dados Externos” {<br />
component [Planilhas] as Externos<br />
}</p>
<p>package “Dados Internos” {<br />
component [Planilhas] as Internos<br />
}</p>
<p>cloud Internet as I{<br />
}</p>
<p>cloud Intranet as R{<br />
}</p>
<p>database “Data Mining” {<br />
[Predicao] as PRED<br />
[Correlacao] as C</p>
<p>}</p>
<p>cloud Descoberta as D{<br />
}</p>
<p>database “Data Warehouse” {<br />
[Historico] as H<br />
[Analitico] as AN</p>
<p>}</p>
<p>Internos -down-> R</p>
<p>Externos -down-> I</p>
<p>R -down->PRED<br />
I -down->PRED<br />
PRED -down->C<br />
C-down->D<br />
D-down->H</p>
<p>H -down-> AN</p>
<p>@enduml</p>
<p>

4 – A Visão Estratégica – A Inteligência

Se o conhecimento representa o entendimento, a Inteligência representa a capacidade de agir com base nesse entendimento. Esta fase envolve a síntese e a apresentação. Ou seja, constitui a materialização do BI propriamente dito. Toda a análise realizada anteriormente se sintetiza em dashboards interativos, relatórios dinâmicos e scorecards.
Aqui, o Aprendizado de Máquina se utiliza de forma mais preditiva e prescritiva. Algoritmos avançados podem simular cenários e sugerir a melhor ação. Por exemplo, a inteligência pode indicar: “Para aumentar as vendas, devemos focar no Produto X e oferecer um desconto de 10% para clientes da região Sul, pois a análise mostra que esse perfil responde bem a esse estímulo.” Assim, a inteligência responde à pergunta “O que fazer?”.

5 – O Acúmulo – A Experiência

Experiência surge quando aplicamos a inteligência repetidamente. Cada ciclo de decisão gera um novo resultado, que realimenta o sistema. Consequentemente, a empresa aprende com os acertos e erros. A persistência e a aplicação contínua da inteligência criam uma memória institucional. Com o tempo, a organização não apenas reage ao mercado, mas antecipa movimentos, pois acumulou know-how. Ela representa o “saber fazer” que se transforma em cultura.

6 – O Objetivo Final – A Tomada de Decisão

Finalmente, chegamos ao topo da escada: a Tomada de Decisão para o Negócio. Este constitui o objetivo final de todo o processo de Business Intelligence. Todo o caminho percorrido, da coleta do dado, à geração de experiência; existe unicamente para dar suporte a uma única ação: decidir. A decisão pode envolver lançar um novo produto, cortar custos, entrar em um novo mercado ou até demitir um funcionário.
Quando a decisão se baseia em um processo sólido de BI, ela deixa de representar um “chute” ou uma intuição vaga e se torna uma decisão orientada por dados (Data Driven). O gestor não aposta; ele age com a convicção de quem possui a informação tratada, o conhecimento analisado e a inteligência aplicada a seu favor.

Conclusão

Portanto, o Business Intelligence representa muito mais do que um software ou um departamento de TI. Ele constitui uma filosofia de gestão que transforma a empresa em um organismo vivo e inteligente. Começando pelos dados brutos e passando pelos filtros da estatística, classificação e aprendizado de máquina, as organizações conseguem não apenas enxergar o passado, mas entender o presente e planejar o futuro com muito mais segurança. Por fim, para o iniciante, a principal lição permanece: dados constituem o recurso, mas a verdadeira inteligência reside na capacidade de interpretá-los e agir com base neles.

Escolhendo o melhor modelo de aprendizado de máquina

python

 

Depois de entender como funciona o treinamento e teste de modelos, você provavelmente se pergunta: como saber se o modelo escolhido é realmente o melhor para o meu problema? Afinal, existem dezenas de algoritmos diferentes, cada um com suas características, e escolher o errado pode significar desperdício de tempo, recursos e, pior, um sistema que não funciona como deveria. A boa notícia é que os cientistas de dados desenvolveram métodos inteligentes para comparar modelos e garantir que a escolha seja a mais acertada possível. Conheça agora dois dos mais importantes: o método holdout e a validação cruzada k-fold. Você pode pensar neles como diferentes formas de testar um candidato a uma vaga de emprego, garantindo que ele realmente sabe o que promete.

O Desafio de Escolher o Modelo Certo

Escolher um modelo de aprendizado de máquina não difere muito de escolher um carro. Afinal, você não compraria um veículo apenas olhando para ele na concessionária, certo? Você faz um teste drive, leva em diferentes tipos de estrada, observa como ele se comporta na chuva, na subida, na estrada de terra. Da mesma forma, com modelos de machine learning, a lógica é parecida. Não basta ver como ele se sai nos dados de treinamento; precisamos testá-lo em situações variadas para ter certeza de que seu desempenho é consistente e confiável. O grande desafio, no entanto, é que não podemos simplesmente “sentir” se o modelo é bom. Precisamos de medidas objetivas e métodos rigorosos que nos permitam comparar diferentes algoritmos de forma justa e imparcial.

Método Holdout: A Primeira Prova do Candidato

O método holdout representa a abordagem mais simples e intuitiva para avaliar um modelo. Ele funciona assim: antes de começar qualquer treinamento, você pega todo o seu conjunto de dados e divide em duas partes. A primeira parte, geralmente maior (digamos, 80% dos dados), recebe o nome de conjunto de treinamento. Com ela, o modelo vai estudar e aprender os padrões. A segunda parte, os 20% restantes, constitui o conjunto de teste, que fica guardado em um cofre, completamente isolado, como as questões de uma prova que o aluno nunca viu antes.

Depois que o modelo termina seu treinamento, chegou a hora de enfrentar o teste. Mostramos a ele os dados que estavam guardados e pedimos que faça suas previsões. Em seguida, medimos o desempenho: quantos acertos ele teve? Qual foi a taxa de erro? Essa taxa de acerto no conjunto de teste se torna a nossa nota para aquele modelo. Portanto, se testarmos dois modelos diferentes, comparamos as notas e escolhemos o que foi melhor.

Parece simples, e de fato é! Contudo, o método holdout tem uma fraqueza: ele depende muito de como a divisão dos dados foi feita. Se, por acaso, os 20% de teste tiverem exemplos muito fáceis ou muito difíceis, a nota pode não refletir a real capacidade do modelo. Isso se assemelha à situação em que a prova do aluno cai apenas o assunto que ele mais gostava — a nota seria alta, mas não representaria o conhecimento completo dele. Além disso, quando temos poucos dados, separar 20% para teste pode significar perder exemplos preciosos que poderiam ajudar no treinamento.

Validação Cruzada K-Fold: O Teste Completo e Rigoroso

Para resolver as limitações do método holdout, os especialistas criaram uma técnica mais robusta chamada validação cruzada k-fold (leia-se “k-fold”, que significa “k dobras”). Enquanto o holdout funciona como uma única prova, o k-fold se assemelha a um semestre inteiro com várias avaliações.

O funcionamento dessa técnica revela-se engenhoso. Primeiro, você escolhe um número k (geralmente 5 ou 10). Depois, divide todo o seu conjunto de dados em k partes iguais, as famosas “dobras”. Aqui acontece a mágica: o treinamento e teste serão repetidos k vezes. Na primeira rodada, a dobra 1 vira conjunto de teste, e as outras k-1 dobras viram treinamento. Treinamos o modelo e anotamos o desempenho. Na segunda rodada, a dobra 2 assume o papel de teste, enquanto as demais se tornam treinamento. E assim prosseguimos, até que cada uma das k dobras tenha servido como teste exatamente uma vez.

No final, você terá k notas de desempenho diferentes. A avaliação final do modelo será a média dessas k notas. Em outras palavras, é como se o aluno tivesse feito k provas ao longo do semestre, cada uma sobre um conjunto diferente de matérias, e sua nota final representasse a média de todas elas.

As vantagens desse método mostram-se enormes. Primeiramente, usamos todos os dados tanto para treinamento quanto para teste, o que se revela ótimo quando os dados são escassos. Em segundo lugar, reduzimos o risco de uma divisão azarada dos dados distorcer a avaliação. Além disso, conseguimos ver não apenas a média de desempenho, mas também a variação: ou seja, se o modelo foi consistente em todas as dobras ou se apresentou picos e vales de desempenho. Um modelo que tem média alta mas variação muito grande pode se mostrar menos confiável que outro com média ligeiramente menor, porém com desempenho mais estável.

Como Aplicar Esses Métodos na Prática

Na vida real de um projeto de machine learning, esses métodos geralmente trabalham em conjunto. O cientista de dados normalmente começa separando um grande conjunto de teste final usando holdout — esses dados ficam trancados até o fim, e você os utiliza apenas uma vez para a avaliação derradeira. Depois, com o restante dos dados, aplicamos a validação cruzada k-fold para comparar diferentes modelos, ajustar configurações e escolher o melhor candidato. Somente quando tudo está definido, testamos o modelo final contra aquele conjunto guardado, garantindo assim uma avaliação totalmente imparcial.

Pense na seguinte analogia: você participa de uma competição de culinária. O holdout representa a prova final, onde os jurados provam seu prato. A validação cruzada, por sua vez, simboliza os treinos e as eliminatórias, onde você testa diferentes receitas, ajusta os temperos e observa como cada prato se comporta com diferentes tipos de jurados. Obviamente, você não usaria os jurados da final para testar suas receitas durante os treinos, assim como não deveríamos usar o conjunto de teste final para ajustar o modelo.

Em suma, dominar esses métodos de avaliação mostra-se tão importante quanto conhecer os algoritmos. De nada adianta ter o modelo mais sofisticado do mundo se não formos capazes de avaliar corretamente seu desempenho e compará-lo de forma justa com outras alternativas. A validação cruzada k-fold e o método holdout fornecem as ferramentas que nos dão essa capacidade, permitindo que escolhamos não apenas o modelo com melhor desempenho, mas aquele que realmente entregará resultados confiáveis quando o colocarmos no mundo real.