O classificador Bayesiano representa a solução estatisticamente ótima para classificação. Ele minimiza a probabilidade média de erro de decisão. Primeiramente, o método utiliza o teorema de Bayes para calcular probabilidades a posteriori. A classe com a maior probabilidade a posteriori é a escolhida. Por exemplo, se P(c1|x) > P(c2|x), escolhemos a classe c1. O classificador considera tanto a verossimilhança dos dados quanto as probabilidades a priori. Consequentemente, ele incorpora conhecimento prévio sobre a ocorrência das classes. Portanto, o classificador Bayesiano é a referência teórica contra a qual outros métodos são comparados.
função de decisão e regra de bayes
A regra de decisão de Bayes maximiza a probabilidade a posteriori. Primeiramente, calculamos P(cj|x) = P(x|cj) * P(cj) / P(x). O denominador P(x) é comum a todas as classes e pode ser ignorado. Portanto, maximizar P(x|cj) * P(cj) é suficiente para a decisão. A função discriminante Bayesiana tem a forma dj(x) = P(x|cj) * P(cj). Para dados Gaussianos, esta função torna-se uma quadrática. Quando as covariâncias são iguais, a função simplifica para uma forma linear. O classificador de mínima distância é um caso especial do Bayesiano. Ele assume covariâncias iguais e probabilidades a priori iguais.
estimando parâmetros e a maldição da dimensionalidade
Na prática, as densidades P(x|cj) são desconhecidas e precisam ser estimadas. Geralmente, assume-se uma distribuição Gaussiana (normal) para os dados. Os parâmetros a estimar são o vetor de médias (μj) e a matriz de covariância (Σj). As amostras de treinamento fornecem as estimativas destes parâmetros. Por exemplo, μj é a média das amostras da classe j. Contudo, o número de parâmetros cresce quadraticamente com a dimensionalidade. Para dados de alta dimensão, precisamos de muitas amostras para estimativas precisas. Este fenômeno é conhecido como a “maldição da dimensionalidade”. Portanto, técnicas de redução de dimensionalidade (como PCA) são frequentemente aplicadas antes do classificador Bayesiano.
quando utilizar o classificador bayesiano
Utilize o classificador Bayesiano quando as suposições Gaussianas forem razoáveis. Por exemplo, dados de sensores que seguem distribuições normais. Outra aplicação é em problemas com poucas dimensões (menos de 20). O método também é excelente quando as probabilidades a priori são conhecidas. Por exemplo, em controle de qualidade, a taxa de defeitos é conhecida antecipadamente. Contudo, evite o classificador Bayesiano em dados de alta dimensão com poucas amostras. Redes neurais ou SVM podem generalizar melhor nestes casos. Além disso, quando os dados não seguem uma distribuição Gaussiana, o desempenho degrada. Versões não-paramétricas (como Parzen) podem ser usadas, mas são mais caras. Em resumo, escolha o classificador Bayesiano pela sua base teórica sólida e desempenho ótimo sob as suposições corretas.