1.4.5 – Exploracao vs. Explotacao
1.4.5.1.1 – Epsilon-Greedy
1.4.5.1.2 – Softmax – Boltzmann
1.4.5.1.3 – Upper Confidence Bound – UCB
1.4.5.1.4 – Thompson Sampling
estratégias de exploração
Estratégias de exploração determinam como o agente balanceia descoberta e exploração. Epsilon-greedy é a mais simples: escolhe ação aleatória com probabilidade ε. Primeiramente, ε fixo mantém exploração constante durante todo treinamento. Além disso, annealing reduz ε gradualmente, focando em explotação ao final. Por exemplo, ε=0.1 explora 10% do tempo, explota 90%. É eficaz e amplamente utilizado.
upper confidence bound (ucb)
UCB escolhe ações baseadas em limite superior de confiança das estimativas. Primeiramente, calcula Q(a) + c * sqrt(log(N)/n_a) para cada ação. Além disso, explora ações com poucas amostras ou alta incerteza. Por exemplo, ação com 0 amostras tem incerteza infinita, garantindo exploração. É mais inteligente que ε-greedy.
exploração por entropia e ruído
Métodos avançados adicionam entropia à política ou ruído às ações. Primeiramente, políticas estocásticas com entropia máxima exploram naturalmente. Além disso, ruído paramétrico adiciona perturbação aos parâmetros da política. Por exemplo, SAC maximiza entropia da política para exploração. São eficazes em ação contínua.
seleção de estratégias
A escolha da estratégia depende do problema e complexidade. Primeiramente, ε-greedy funciona para problemas discretos simples. Além disso, UCB é melhor para bandidos com muitos braços. Por exemplo, entropia é ideal para problemas com ação contínua. Para iniciantes, explorar estratégias mostra diferentes formas de balancear. É fundamental para aprendizado por reforço eficaz.