Thompson Sampling

bebê aprendendo a andar

exploração probabilística bayesiana

Thompson Sampling é uma estratégia que amostra ações da distribuição posterior de recompensas. Diferente de UCB, ela usa incerteza completa através de amostragem probabilística. Primeiramente, mantém distribuição de crença sobre cada ação. Além disso, amostra um valor de cada distribuição e escolhe o maior. Por exemplo, Beta(α,β) para recompensas binárias.

funcionamento passo a passo

O algoritmo atualiza distribuições após cada observação de recompensa. Primeiramente, para cada ação, amostra um valor da sua distribuição posterior. Além disso, executa ação com maior valor amostrado. Por exemplo, em bandido binomial, usa distribuição Beta. A amostragem naturalmente explora ações incertas.

vantagens sobre ucb e epsilon-greedy

Thompson Sampling tem desempenho superior em muitos problemas práticos. Primeiramente, explora automaticamente na proporção da incerteza. Além disso, implementação simples e eficiente computacionalmente. Por exemplo, supera UCB em experimentos A/B com múltiplas variantes. É estado da arte em bandidos.

aplicações e popularidade

Thompson Sampling é amplamente utilizado em sistemas de recomendação. Primeiramente, usado por empresas como Google, Amazon e Netflix. Além disso, funciona bem para otimização online e testes A/B. Por exemplo, escolha de anúncios e recomendações personalizadas. Para iniciantes, mostra exploração bayesiana inteligente. É uma estratégia poderosa e moderna.

Upper Confidence Bound – UCB

bebê aprendendo a andar

exploração baseada em incerteza

UCB (Upper Confidence Bound) escolhe ações considerando recompensa média mais incerteza. Diferente de ε-greedy, explora ações com poucas amostras ou alta variância. Primeiramente, calcula UCB(a) = Q(a) + c * sqrt(log(N)/n_a). Além disso, c controla o nível de exploração. Por exemplo, ações não exploradas têm n_a=0, incerteza infinita.

balanço entre média e incerteza

UCB equilibra automaticamente exploração baseada em quão incerta é a estimativa. Primeiramente, termo sqrt(log(N)/n_a) decai com mais amostras. Além disso, ações com alta variância ou poucas amostras são exploradas mais. Por exemplo, explora até ter confiança na estimativa. É mais eficiente que ε-greedy.

vantagens teóricas e práticas

UCB tem garantias teóricas de arrependimento logarítmico em bandidos. Primeiramente, reduz exploração desnecessária de ações claramente ruins. Além disso, converge mais rápido para política ótima. Por exemplo, em testes A/B, identifica melhor variante rapidamente. É amplamente utilizado em otimização online.

aplicações e limitações

UCB é ideal para bandidos e problemas com poucas ações. Primeiramente, usado em sistemas de recomendação e experimentos online. Além disso, funciona bem quando ações não têm muitas interações. Por exemplo, escolha de anúncios e otimização de conversão. Para iniciantes, UCB mostra exploração inteligente baseada em incerteza. É uma estratégia poderosa e elegante.