Arquivo de AM Por Reforço - Página 3 de 9

Estrategias

26/04/202623/03/2026 Por antonino

4.5 – Exploracao vs. Explotacao
4.5.1 – Estrategias
4.5.1.1 – Epsilon-Greedy
4.5.1.2 – Softmax – Boltzmann
4.5.1.3 – Upper Confidence Bound – UCB
4.5.1.4 – Thompson Sampling

LEGENDA

Principal

Ramo

Metodo

Problemas

Modelo

Arquitetura

estratégias de exploração

Estratégias de exploração determinam como o agente balanceia descoberta e exploração. Epsilon-greedy é a mais simples: escolhe ação aleatória com probabilidade ε. Primeiramente, ε fixo mantém exploração constante durante todo treinamento. Além disso, annealing reduz ε gradualmente, focando em explotação ao final. Por exemplo, ε=0.1 explora 10% do tempo, explota 90%. É eficaz e amplamente utilizado.

upper confidence bound (ucb)

UCB escolhe ações baseadas em limite superior de confiança das estimativas. Primeiramente, calcula Q(a) + c * sqrt(log(N)/n_a) para cada ação. Além disso, explora ações com poucas amostras ou alta incerteza. Por exemplo, ação com 0 amostras tem incerteza infinita, garantindo exploração. É mais inteligente que ε-greedy.

exploração por entropia e ruído

Métodos avançados adicionam entropia à política ou ruído às ações. Primeiramente, políticas estocásticas com entropia máxima exploram naturalmente. Além disso, ruído paramétrico adiciona perturbação aos parâmetros da política. Por exemplo, SAC maximiza entropia da política para exploração. São eficazes em ação contínua.

seleção de estratégias

A escolha da estratégia depende do problema e complexidade. Primeiramente, ε-greedy funciona para problemas discretos simples. Além disso, UCB é melhor para bandidos com muitos braços. Por exemplo, entropia é ideal para problemas com ação contínua. Para iniciantes, explorar estratégias mostra diferentes formas de balancear. É fundamental para aprendizado por reforço eficaz.

Exploração vs. Explotação

26/04/202623/03/2026 Por antonino

4 – Por Reforco
4.5 – Exploracao vs. Explotacao
4.5.1 – Estrategias

LEGENDA

Principal

Ramo

Metodo

Problemas

Modelo

Arquitetura

o dilema central do reforço

Exploração versus explotação é o dilema fundamental do aprendizado por reforço. Exploração significa experimentar ações desconhecidas para descobrir melhores recompensas. Explotação significa escolher ações já conhecidas por serem boas. Primeiramente, explorar pode gerar perdas imediatas, mas descobre opções melhores. Além disso, explotar garante recompensas conhecidas, mas pode perder ótimas oportunidades. Por exemplo, escolher restaurante favorito ou experimentar um novo.

estratégias de exploração

Epsilon-greedy é a estratégia mais simples: explora com probabilidade ε, explota com 1-ε. Primeiramente, ε fixo garante exploração infinita, mas nunca convergência total. Além disso, annealing reduz ε ao longo do tempo para focar em explotação. Por exemplo, começa com ε=1.0 e reduz gradualmente para 0.01. É simples e eficaz.

exploração guiada por incerteza

Métodos avançados exploram com base na incerteza das estimativas. Primeiramente, Upper Confidence Bound (UCB) escolhe ações com maior limite superior. Além disso, explora mais ações com poucas amostras ou alta variância. Por exemplo, balança recompensa esperada com incerteza. É mais inteligente que ε-greedy.

equilíbrio e adaptação

O equilíbrio ideal depende do problema e fase do aprendizado. Primeiramente, início requer mais exploração para descobrir o ambiente. Além disso, depois de aprender, foca em explotar o conhecimento adquirido. Por exemplo, algoritmos adaptativos ajustam exploração automaticamente. Para iniciantes, exploração vs explotação mostra a essência da tomada de decisão. É o coração do aprendizado por reforço.