Softmax - Boltzmann - Área de Trampo

exploração baseada em probabilidade

Softmax (Boltzmann) é uma estratégia que escolhe ações com probabilidade proporcional ao seu valor. Diferente de ε-greedy, ela explora ações boas mais frequentemente que ruins. Primeiramente, calcula probabilidade P(a) = exp(Q(a)/τ) / Σ exp(Q(b)/τ). Além disso, τ (temperatura) controla a aleatoriedade da escolha. Por exemplo, τ alto ≈ escolha uniforme; τ baixo ≈ ação greedy.

temperatura e exploração

A temperatura τ controla o nível de exploração da estratégia softmax. Primeiramente, τ → ∞ faz todas ações igualmente prováveis (exploração máxima). Além disso, τ → 0 faz escolha greedy determinística (exploração zero). Por exemplo, τ=1.0 mantém probabilidades proporcionais aos valores. O ajuste gradual da temperatura é comum.

vantagens sobre epsilon-greedy

Softmax explora ações promissoras mais frequentemente que ações ruins. Primeiramente, evita desperdiçar exploração em ações claramente inferiores. Além disso, faz transição suave entre exploração e explotação. Por exemplo, ações com Q maior têm mais chance de serem testadas. É mais eficiente em muitos problemas.

aplicações e ajustes

Softmax é comum em bandidos e problemas com poucas ações. Primeiramente, usado em sistemas de recomendação e otimização online. Além disso, annealing reduz τ gradualmente para convergência. Por exemplo, começa com τ=10.0 e reduz para τ=0.1. Para iniciantes, mostra exploração proporcional a valor. É uma alternativa elegante ao ε-greedy.

Indice

Softmax – Boltzmann

exploração baseada em probabilidade

temperatura e exploração

vantagens sobre epsilon-greedy

aplicações e ajustes

Deixe um comentário Cancelar resposta