Softmax – Boltzmann

bebê aprendendo a andar

exploração baseada em probabilidade

Softmax (Boltzmann) é uma estratégia que escolhe ações com probabilidade proporcional ao seu valor. Diferente de ε-greedy, ela explora ações boas mais frequentemente que ruins. Primeiramente, calcula probabilidade P(a) = exp(Q(a)/τ) / Σ exp(Q(b)/τ). Além disso, τ (temperatura) controla a aleatoriedade da escolha. Por exemplo, τ alto ≈ escolha uniforme; τ baixo ≈ ação greedy.

temperatura e exploração

A temperatura τ controla o nível de exploração da estratégia softmax. Primeiramente, τ → ∞ faz todas ações igualmente prováveis (exploração máxima). Além disso, τ → 0 faz escolha greedy determinística (exploração zero). Por exemplo, τ=1.0 mantém probabilidades proporcionais aos valores. O ajuste gradual da temperatura é comum.

vantagens sobre epsilon-greedy

Softmax explora ações promissoras mais frequentemente que ações ruins. Primeiramente, evita desperdiçar exploração em ações claramente inferiores. Além disso, faz transição suave entre exploração e explotação. Por exemplo, ações com Q maior têm mais chance de serem testadas. É mais eficiente em muitos problemas.

aplicações e ajustes

Softmax é comum em bandidos e problemas com poucas ações. Primeiramente, usado em sistemas de recomendação e otimização online. Além disso, annealing reduz τ gradualmente para convergência. Por exemplo, começa com τ=10.0 e reduz para τ=0.1. Para iniciantes, mostra exploração proporcional a valor. É uma alternativa elegante ao ε-greedy.

Epsilon-Greedy

bebê aprendendo a andar

a estratégia mais simples e eficaz

Epsilon-greedy é a estratégia de exploração mais utilizada em aprendizado por reforço. Ela escolhe a ação com maior valor estimado na maioria das vezes. Primeiramente, com probabilidade 1-ε, explota a ação greedy atual. Além disso, com probabilidade ε, explora uma ação aleatória uniformemente. Por exemplo, ε=0.1 significa exploração 10% do tempo, explotação 90%.

controle de exploração

O parâmetro ε controla diretamente o trade-off entre exploração e explotação. Primeiramente, ε alto (ex: 0.5) explora muito, bom para início. Além disso, ε baixo (ex: 0.01) explota mais, bom para convergência. Por exemplo, ε=0 não explora, aprende pouco; ε=1 nunca explota. O ajuste adequado é essencial.

annealing: reduzindo ε ao longo do tempo

Anneal reduz gradualmente ε conforme o aprendizado progride. Primeiramente, começa com ε alto (ex: 1.0) para explorar inicialmente. Além disso, diminui ε exponencialmente ou linearmente até valor mínimo (ex: 0.01). Por exemplo, após 1000 episódios, ε=0.01. Balanceia exploração inicial com explotação final.

vantagens e limitações

Epsilon-greedy é simples, eficaz e funciona em muitos problemas práticos. Primeiramente, fácil implementar e entender seu comportamento. Além disso, explora todas as ações uniformemente, sem preferências. No entanto, não distingue ações promissoras das ruins. Por exemplo, explora ações ruins tanto quanto boas. Para iniciantes, é o ponto de partida ideal. É a base para estratégias mais sofisticadas.