1.4.5 – Exploracao vs. Explotacao
1.4.5.1.4 – Thompson Sampling
exploração probabilística bayesiana
Thompson Sampling é uma estratégia que amostra ações da distribuição posterior de recompensas. Diferente de UCB, ela usa incerteza completa através de amostragem probabilística. Primeiramente, mantém distribuição de crença sobre cada ação. Além disso, amostra um valor de cada distribuição e escolhe o maior. Por exemplo, Beta(α,β) para recompensas binárias.
funcionamento passo a passo
O algoritmo atualiza distribuições após cada observação de recompensa. Primeiramente, para cada ação, amostra um valor da sua distribuição posterior. Além disso, executa ação com maior valor amostrado. Por exemplo, em bandido binomial, usa distribuição Beta. A amostragem naturalmente explora ações incertas.
vantagens sobre ucb e epsilon-greedy
Thompson Sampling tem desempenho superior em muitos problemas práticos. Primeiramente, explora automaticamente na proporção da incerteza. Além disso, implementação simples e eficiente computacionalmente. Por exemplo, supera UCB em experimentos A/B com múltiplas variantes. É estado da arte em bandidos.
aplicações e popularidade
Thompson Sampling é amplamente utilizado em sistemas de recomendação. Primeiramente, usado por empresas como Google, Amazon e Netflix. Além disso, funciona bem para otimização online e testes A/B. Por exemplo, escolha de anúncios e recomendações personalizadas. Para iniciantes, mostra exploração bayesiana inteligente. É uma estratégia poderosa e moderna.