Arquiteturas Basicas para Actor-Critic

bebê aprendendo a andar
1.4.4 – Metodos Actor-Critic
1.4.4.1 – Arquiteturas Basicas
1.4.4.1.1 – Actor-Critic com TD Error
1.4.4.1.2 – Advantage Actor-Critic – A2C
1.4.4.1.3 – Asynchronous Advantage Actor-Critic – A3C
LEGENDA
Principal
Ramo
Metodo
Problemas
Modelo
Arquitetura

arquitetura de duas redes

Arquiteturas básicas de Actor-Critic usam redes separadas para ator e crítico. Diferente de arquiteturas compartilhadas, cada componente tem seus próprios parâmetros. Primeiramente, a rede do ator mapeia estados para ações ou distribuições de ações. Além disso, a rede do crítico mapeia estados para valores V(s). Por exemplo, ator e crítico aprendem de forma independente, mas compartilham observações.

vantagens da separação

Redes separadas permitem otimização independente de cada componente. Primeiramente, cada rede pode ter arquitetura adequada à sua função específica. Além disso, evita interferência entre objetivos de aprendizado diferentes. Por exemplo, ator pode usar saída contínua enquanto crítico usa escalar. É mais simples de implementar e depurar.

desvantagens e custos

Redes separadas dobram o número de parâmetros e custo computacional. Primeiramente, requerem mais memória e tempo de treinamento. Além disso, podem aprender representações diferentes para o mesmo estado. Por exemplo, características úteis para o crítico podem não ser usadas pelo ator. É menos eficiente em termos de amostras.

implementação prática

Arquiteturas básicas são ideais para começar com Actor-Critic. Primeiramente, ator usa gradiente de política com vantagem do crítico. Além disso, crítico aprende com erro quadrático entre V(s) e retornos. Por exemplo, usam otimizadores separados e taxas de aprendizado diferentes. Para iniciantes, é a porta de entrada para métodos Actor-Critic. Simples, eficaz e fácil de entender.

Métodos Actor-Critic

bebê aprendendo a andar
1.4 – Por Reforco
1.4.4 – Metodos Actor-Critic
1.4.4.1 – Arquiteturas Basicas
LEGENDA
Principal
Ramo
Metodo
Problemas
Modelo
Arquitetura

dois aprendizes em um

Métodos Actor-Critic combinam aprendizado de política (ator) e valor (crítico) em um único sistema. Diferente de métodos puros, eles usam o crítico para avaliar ações do ator. Primeiramente, o ator aprende a política π_θ(a|s) que escolhe ações. Além disso, o crítico aprende a função valor V(s) ou Q(s,a) para avaliar. Por exemplo, o crítico dá feedback ao ator sobre qualidade das ações.

aprendizado online e eficiente

Actor-Critic aprende online, atualizando após cada passo em vez de episódios completos. Primeiramente, usa o crítico para calcular vantagem A(s,a) = r + γ V(s’) – V(s). Além disso, o ator atualiza na direção que aumenta vantagem. Por exemplo, ações melhores que o esperado são reforçadas imediatamente. É mais eficiente que métodos de Monte Carlo.

vantagens sobre métodos puros

Actor-Critic reduz variância comparado a métodos de gradiente de política puros. Primeiramente, usa o crítico como linha de base adaptativa. Além disso, permite aprendizado incremental sem esperar fim de episódios. Por exemplo, funciona bem em tarefas contínuas sem episódios definidos. Combina o melhor de métodos baseados em política e valor.

implementações modernas

A2C (Advantage Actor-Critic) e A3C (Asynchronous) são implementações populares. Primeiramente, usam múltiplos agentes paralelos para estabilizar aprendizado. Além disso, mantêm ator e crítico compartilhando camadas da rede neural. Por exemplo, usado em jogos, robótica e controle. Para iniciantes, mostra como ator e crítico cooperam. É a base para algoritmos modernos como PPO e SAC.