Aprendizado de Parametros (MAP, ML)

O que é aprendizado de parâmetros?

Aprendizado de parâmetros é o processo de estimar os valores numéricos das probabilidades condicionais em uma rede bayesiana. Dada a estrutura do grafo, ele usa os dados para preencher as tabelas CPT (probabilidades condicionais). Existem duas abordagens principais: máxima verossimilhança (ML) e máxima a posteriori (MAP). ML estima os parâmetros que maximizam a verossimilhança dos dados observados. MAP incorpora um prior sobre os parâmetros, regularizando as estimativas. ML é equivalente a contar frequências e normalizar (para variáveis discretas). MAP usa suavização (ex.: Laplace) para evitar probabilidades zero em combinações não vistas. O aprendizado de parâmetros é feito separadamente para cada nó, dado seus pais. Ele é computacionalmente simples e pode ser feito de forma incremental.

Características da estimação por máxima verossimilhança (ML)

O método ML possui três características principais que o definem. Primeiro, ele é consistente: converge para o valor verdadeiro com muitos dados. Segundo, ele é não-viesado assintoticamente para modelos corretamente especificados. Terceiro, ele pode superajustar dados pequenos, atribuindo probabilidade zero a eventos não observados. A estimativa ML para uma variável discreta com pais é a frequência relativa: P(X=x | pais=p) = contagem(x,p) / contagem(p). Ele é o estimador de escolha quando se tem muitos dados e nenhum conhecimento prévio.

Características da estimação por máxima a posteriori (MAP)

O método MAP também possui três características principais. Primeiro, ele incorpora um prior que suaviza as estimativas (ex.: Laplace, Dirichlet). Segundo, ele reduz o overfitting em dados escassos. Terceiro, ele é um compromisso entre os dados e a crença prévia. MAP equivale a adicionar pseudocontagens ao numerador e denominador. Para prior de Laplace (aditivo-1), P(X=x | pais=p) = (contagem(x,p) + 1) / (contagem(p) + k), onde k é o número de valores de X.

Vantagens e aplicações típicas

A principal vantagem do ML é a simplicidade e a objetividade. MAP é preferível quando os dados são escassos ou há conhecimento especialista. Ambos são usados em diagnóstico, classificação e sistemas de recomendação.

O aprendizado de parâmetros é a segunda etapa após a definição da estrutura. Em redes com muitas variáveis, as CPTs podem ser enormes (exponencial nos pais). Para reduzir a complexidade, usa-se modelos de regressão logística ou árvores de decisão. ML pode ser calculado por fechamento analítico para distribuições da família exponencial. MAP com prior Dirichlet é conjugado para distribuições multinomiais (discretas). A força do prior (tamanho da amostra virtual) controla a regularização. Prior fraco (ex.: pseudocontagens pequenas) aproxima o ML. Prior forte força as estimativas a ficarem próximas do prior. Em problemas contínuos, ML e MAP estimam médias e variâncias de distribuições normais. MAP é frequentemente usado em aprendizado de máquina com regularização L2 (equivalente a prior normal). A escolha entre ML e MAP depende do tamanho da amostra e da confiança no prior. Em dados grandes, ML e MAP convergem para o mesmo valor. O aprendizado de parâmetros pode ser feito online (atualização recursiva) com priores conjugados. Assim, o aprendizado de parâmetros é uma etapa fundamental em modelagem probabilística.

Um exemplo clássico é estimar a probabilidade de uma moeda dar cara. ML estima P(cara) = número de caras / total de lançamentos. MAP com prior Beta(α, β) estima (caras + α – 1) / (total + α + β – 2). Com poucos lançamentos, MAP puxa a estimativa para a média do prior.


Enunciado do exemplo clássico

Implemente o aprendizado de parâmetros ML e MAP para uma rede com uma variável binária X e um pai Y (também binário). Dados: 100 observações com contagens: Y=0 (40 vezes), Y=1 (60 vezes). Dentro de Y=0: X=0 (30), X=1 (10). Dentro de Y=1: X=0 (20), X=1 (40). Calcule as CPTs por ML e MAP (usando prior Beta(2,2) para cada condicional). Plote as estimativas e compare com as probabilidades verdadeiras (se conhecidas).

Este código estima parâmetros por ML e MAP para uma CPT simples. ML segue as frequências exatas dos dados, podendo ser instável com amostras pequenas. MAP suaviza as estimativas, puxando-as em direção à probabilidade uniforme (0.5). Quanto maior a força do prior, mais as estimativas se afastam dos dados. Para iniciantes, este exemplo mostra a diferença prática entre ML e MAP. O aprendizado de parâmetros é, portanto, uma escolha entre objetividade e regularização.

Deixe um comentário