Iteração de Política

Banco Imobiliário

alternando avaliação e melhoria

Iteração de política alterna entre avaliar a política atual e melhorá-la iterativamente. Diferente da iteração de valor, ela mantém uma política explícita durante todo o processo. Primeiramente, avalia a política atual resolvendo as equações de Bellman linearmente. Além disso, melhora a política escolhendo ações greedy baseadas nos valores avaliados. Por exemplo, melhora iterativamente uma política até convergir para a ótima. O processo repete até que a política não mude mais.

avaliação da política

Avaliação da política resolve V_π(s) = E[recompensa + γ V_π(s’)] para a política atual. Primeiramente, pode resolver sistema linear diretamente para estados discretos. Além disso, pode usar iteração iterativa para problemas maiores. Por exemplo, calcular valores de estados seguindo política fixa no labirinto. Converge para valores consistentes com a política atual.

melhoria e convergência

Melhoria da política atualiza π(s) = argmax_a Q_π(s,a) após avaliação. Primeiramente, a nova política é greedy em relação aos valores atuais. Além disso, teorema da melhoria garante política melhor ou igual à anterior. Por exemplo, após avaliar, escolhe ações que maximizam Q(s,a). Converge para política ótima em número finito de iterações. É mais estável que iteração de valor para alguns problemas.

vantagens e uso prático

Iteração de política converge em menos iterações que iteração de valor tipicamente. Primeiramente, cada iteração é mais cara, mas número de iterações menor. Além disso, é mais estável numericamente para problemas mal condicionados. Por exemplo, usada em planejamento de controle ótimo com modelo conhecido. Para iniciantes, mostra como política e valor evoluem juntos. É a base para algoritmos modernos de otimização de políticas.

Iteração de Valor

Balança

propagando valores para trás

Iteração de valor é um algoritmo de programação dinâmica que converge para a função valor ótima. Ele usa a equação de Bellman para atualizar V(s) repetidamente. Primeiramente, calcula Q(s,a) para cada ação usando modelo do ambiente. Além disso, atualiza V(s) como o máximo sobre Q(s,a). Por exemplo, em um labirinto, valores propagam da saída para entrada. O processo repete até convergência.

algoritmo passo a passo

O algoritmo começa com V(s) arbitrário para todos os estados. Primeiramente, para cada estado, calcula Q(s,a) = R(s,a) + γ Σ P(s’|s,a) V(s’). Além disso, atualiza V(s) = max_a Q(s,a). Repete até mudanças muito pequenas nos valores. Por exemplo, cada iteração melhora aproximação da função valor ótima. Convergência garantida para problemas com fator de desconto γ < 1.

vantagens e aplicações

Iteração de valor é simples e converge para política ótima sem iterações de política. Primeiramente, combina avaliação e melhoria da política em um único passo. Além disso, funciona bem para problemas com espaço de estados moderado. Por exemplo, resolver labirintos, jogos simples e planejamento discreto. É a base teórica para algoritmos mais avançados. Para iniciantes, mostra como valores se propagam pelo espaço de estados. Demonstra o poder da programação dinâmica em aprendizado por reforço.