Upper Confidence Bound – UCB

bebê aprendendo a andar
1.4.5 – Exploracao vs. Explotacao
1.4.5.1 – Estrategias
1.4.5.1.3 – Upper Confidence Bound – UCB
LEGENDA
Principal
Ramo
Metodo
Problemas
Modelo
Arquitetura

exploração baseada em incerteza

UCB (Upper Confidence Bound) escolhe ações considerando recompensa média mais incerteza. Diferente de ε-greedy, explora ações com poucas amostras ou alta variância. Primeiramente, calcula UCB(a) = Q(a) + c * sqrt(log(N)/n_a). Além disso, c controla o nível de exploração. Por exemplo, ações não exploradas têm n_a=0, incerteza infinita.

balanço entre média e incerteza

UCB equilibra automaticamente exploração baseada em quão incerta é a estimativa. Primeiramente, termo sqrt(log(N)/n_a) decai com mais amostras. Além disso, ações com alta variância ou poucas amostras são exploradas mais. Por exemplo, explora até ter confiança na estimativa. É mais eficiente que ε-greedy.

vantagens teóricas e práticas

UCB tem garantias teóricas de arrependimento logarítmico em bandidos. Primeiramente, reduz exploração desnecessária de ações claramente ruins. Além disso, converge mais rápido para política ótima. Por exemplo, em testes A/B, identifica melhor variante rapidamente. É amplamente utilizado em otimização online.

aplicações e limitações

UCB é ideal para bandidos e problemas com poucas ações. Primeiramente, usado em sistemas de recomendação e experimentos online. Além disso, funciona bem quando ações não têm muitas interações. Por exemplo, escolha de anúncios e otimização de conversão. Para iniciantes, UCB mostra exploração inteligente baseada em incerteza. É uma estratégia poderosa e elegante.

Softmax – Boltzmann

bebê aprendendo a andar
1.4.5 – Exploracao vs. Explotacao
1.4.5.1 – Estrategias
1.4.5.1.2 – Softmax – Boltzmann
LEGENDA
Principal
Ramo
Metodo
Problemas
Modelo
Arquitetura

exploração baseada em probabilidade

Softmax (Boltzmann) é uma estratégia que escolhe ações com probabilidade proporcional ao seu valor. Diferente de ε-greedy, ela explora ações boas mais frequentemente que ruins. Primeiramente, calcula probabilidade P(a) = exp(Q(a)/τ) / Σ exp(Q(b)/τ). Além disso, τ (temperatura) controla a aleatoriedade da escolha. Por exemplo, τ alto ≈ escolha uniforme; τ baixo ≈ ação greedy.

temperatura e exploração

A temperatura τ controla o nível de exploração da estratégia softmax. Primeiramente, τ → ∞ faz todas ações igualmente prováveis (exploração máxima). Além disso, τ → 0 faz escolha greedy determinística (exploração zero). Por exemplo, τ=1.0 mantém probabilidades proporcionais aos valores. O ajuste gradual da temperatura é comum.

vantagens sobre epsilon-greedy

Softmax explora ações promissoras mais frequentemente que ações ruins. Primeiramente, evita desperdiçar exploração em ações claramente inferiores. Além disso, faz transição suave entre exploração e explotação. Por exemplo, ações com Q maior têm mais chance de serem testadas. É mais eficiente em muitos problemas.

aplicações e ajustes

Softmax é comum em bandidos e problemas com poucas ações. Primeiramente, usado em sistemas de recomendação e otimização online. Além disso, annealing reduz τ gradualmente para convergência. Por exemplo, começa com τ=10.0 e reduz para τ=0.1. Para iniciantes, mostra exploração proporcional a valor. É uma alternativa elegante ao ε-greedy.