Epsilon-Greedy

bebê aprendendo a andar
1.4.5 – Exploracao vs. Explotacao
1.4.5.1 – Estrategias
1.4.5.1.1 – Epsilon-Greedy
LEGENDA
Principal
Ramo
Metodo
Problemas
Modelo
Arquitetura

a estratégia mais simples e eficaz

Epsilon-greedy é a estratégia de exploração mais utilizada em aprendizado por reforço. Ela escolhe a ação com maior valor estimado na maioria das vezes. Primeiramente, com probabilidade 1-ε, explota a ação greedy atual. Além disso, com probabilidade ε, explora uma ação aleatória uniformemente. Por exemplo, ε=0.1 significa exploração 10% do tempo, explotação 90%.

controle de exploração

O parâmetro ε controla diretamente o trade-off entre exploração e explotação. Primeiramente, ε alto (ex: 0.5) explora muito, bom para início. Além disso, ε baixo (ex: 0.01) explota mais, bom para convergência. Por exemplo, ε=0 não explora, aprende pouco; ε=1 nunca explota. O ajuste adequado é essencial.

annealing: reduzindo ε ao longo do tempo

Anneal reduz gradualmente ε conforme o aprendizado progride. Primeiramente, começa com ε alto (ex: 1.0) para explorar inicialmente. Além disso, diminui ε exponencialmente ou linearmente até valor mínimo (ex: 0.01). Por exemplo, após 1000 episódios, ε=0.01. Balanceia exploração inicial com explotação final.

vantagens e limitações

Epsilon-greedy é simples, eficaz e funciona em muitos problemas práticos. Primeiramente, fácil implementar e entender seu comportamento. Além disso, explora todas as ações uniformemente, sem preferências. No entanto, não distingue ações promissoras das ruins. Por exemplo, explora ações ruins tanto quanto boas. Para iniciantes, é o ponto de partida ideal. É a base para estratégias mais sofisticadas.

Estrategias

bebê aprendendo a andar
1.4.5 – Exploracao vs. Explotacao
1.4.5.1 – Estrategias
1.4.5.1.1 – Epsilon-Greedy
1.4.5.1.2 – Softmax – Boltzmann
1.4.5.1.3 – Upper Confidence Bound – UCB
1.4.5.1.4 – Thompson Sampling
LEGENDA
Principal
Ramo
Metodo
Problemas
Modelo
Arquitetura

estratégias de exploração

Estratégias de exploração determinam como o agente balanceia descoberta e exploração. Epsilon-greedy é a mais simples: escolhe ação aleatória com probabilidade ε. Primeiramente, ε fixo mantém exploração constante durante todo treinamento. Além disso, annealing reduz ε gradualmente, focando em explotação ao final. Por exemplo, ε=0.1 explora 10% do tempo, explota 90%. É eficaz e amplamente utilizado.

upper confidence bound (ucb)

UCB escolhe ações baseadas em limite superior de confiança das estimativas. Primeiramente, calcula Q(a) + c * sqrt(log(N)/n_a) para cada ação. Além disso, explora ações com poucas amostras ou alta incerteza. Por exemplo, ação com 0 amostras tem incerteza infinita, garantindo exploração. É mais inteligente que ε-greedy.

exploração por entropia e ruído

Métodos avançados adicionam entropia à política ou ruído às ações. Primeiramente, políticas estocásticas com entropia máxima exploram naturalmente. Além disso, ruído paramétrico adiciona perturbação aos parâmetros da política. Por exemplo, SAC maximiza entropia da política para exploração. São eficazes em ação contínua.

seleção de estratégias

A escolha da estratégia depende do problema e complexidade. Primeiramente, ε-greedy funciona para problemas discretos simples. Além disso, UCB é melhor para bandidos com muitos braços. Por exemplo, entropia é ideal para problemas com ação contínua. Para iniciantes, explorar estratégias mostra diferentes formas de balancear. É fundamental para aprendizado por reforço eficaz.