Epsilon-Greedy - Área de Trampo

a estratégia mais simples e eficaz

Epsilon-greedy é a estratégia de exploração mais utilizada em aprendizado por reforço. Ela escolhe a ação com maior valor estimado na maioria das vezes. Primeiramente, com probabilidade 1-ε, explota a ação greedy atual. Além disso, com probabilidade ε, explora uma ação aleatória uniformemente. Por exemplo, ε=0.1 significa exploração 10% do tempo, explotação 90%.

controle de exploração

O parâmetro ε controla diretamente o trade-off entre exploração e explotação. Primeiramente, ε alto (ex: 0.5) explora muito, bom para início. Além disso, ε baixo (ex: 0.01) explota mais, bom para convergência. Por exemplo, ε=0 não explora, aprende pouco; ε=1 nunca explota. O ajuste adequado é essencial.

annealing: reduzindo ε ao longo do tempo

Anneal reduz gradualmente ε conforme o aprendizado progride. Primeiramente, começa com ε alto (ex: 1.0) para explorar inicialmente. Além disso, diminui ε exponencialmente ou linearmente até valor mínimo (ex: 0.01). Por exemplo, após 1000 episódios, ε=0.01. Balanceia exploração inicial com explotação final.

vantagens e limitações

Epsilon-greedy é simples, eficaz e funciona em muitos problemas práticos. Primeiramente, fácil implementar e entender seu comportamento. Além disso, explora todas as ações uniformemente, sem preferências. No entanto, não distingue ações promissoras das ruins. Por exemplo, explora ações ruins tanto quanto boas. Para iniciantes, é o ponto de partida ideal. É a base para estratégias mais sofisticadas.

Indice

a estratégia mais simples e eficaz

controle de exploração

annealing: reduzindo ε ao longo do tempo

vantagens e limitações

Deixe um comentário Cancelar resposta