Iteração de Política

alternando avaliação e melhoria

Iteração de política alterna entre avaliar a política atual e melhorá-la iterativamente. Diferente da iteração de valor, ela mantém uma política explícita durante todo o processo. Primeiramente, avalia a política atual resolvendo as equações de Bellman linearmente. Além disso, melhora a política escolhendo ações greedy baseadas nos valores avaliados. Por exemplo, melhora iterativamente uma política até convergir para a ótima. O processo repete até que a política não mude mais.

avaliação da política

Avaliação da política resolve V_π(s) = E[recompensa + γ V_π(s’)] para a política atual. Primeiramente, pode resolver sistema linear diretamente para estados discretos. Além disso, pode usar iteração iterativa para problemas maiores. Por exemplo, calcular valores de estados seguindo política fixa no labirinto. Converge para valores consistentes com a política atual.

melhoria e convergência

Melhoria da política atualiza π(s) = argmax_a Q_π(s,a) após avaliação. Primeiramente, a nova política é greedy em relação aos valores atuais. Além disso, teorema da melhoria garante política melhor ou igual à anterior. Por exemplo, após avaliar, escolhe ações que maximizam Q(s,a). Converge para política ótima em número finito de iterações. É mais estável que iteração de valor para alguns problemas.

vantagens e uso prático

Iteração de política converge em menos iterações que iteração de valor tipicamente. Primeiramente, cada iteração é mais cara, mas número de iterações menor. Além disso, é mais estável numericamente para problemas mal condicionados. Por exemplo, usada em planejamento de controle ótimo com modelo conhecido. Para iniciantes, mostra como política e valor evoluem juntos. É a base para algoritmos modernos de otimização de políticas.

Deixe um comentário