aprendendo com a própria política
SARSA é um algoritmo on-policy que aprende avaliando a política que está executando. Seu nome vem da sequência (S, A, R, S’, A’) usada nas atualizações. Primeiramente, o agente escolhe ação A’ para próximo estado usando a política atual. Além disso, atualiza Q(s,a) usando a recompensa e o valor da próxima ação. Por exemplo, aprende a política que está sendo seguida, incluindo exploração.
atualização passo a passo
O algoritmo atualiza após cada transição usando a próxima ação real. Primeiramente, observa (s, a, r, s’, a’) onde a’ é ação escolhida com política. Além disso, atualiza Q(s,a) = Q(s,a) + α [r + γ Q(s’,a’) – Q(s,a)]. Por exemplo, em um jogo, atualiza valores com base na próxima ação que realmente tomará. O valor Q(s’,a’) usa a ação que será executada.
exploração e comportamento
SARSA aprende a política que inclui exploração, não apenas a política ótima. Primeiramente, se usa ε-greedy, SARSA aprende valores considerando ações exploratórias. Além disso, converge para política ótima no limite quando exploração desaparece. Por exemplo, é mais conservador que Q-learning em ambientes com risco. É preferido quando segurança durante treinamento é importante.
aplicações e características
SARSA é robusto e estável em problemas onde exploração pode ser perigosa. Primeiramente, evita comportamentos muito otimistas durante o aprendizado. Além disso, converge sob condições mais brandas que Q-learning. Por exemplo, usado em robótica onde ações ruins podem ser prejudiciais. Para iniciantes, mostra como aprender avaliando a própria política. É um algoritmo fundamental para aprendizado on-policy.