Arquiteturas Basicas para Actor-Critic

1.4.4 – Metodos Actor-Critic
1.4.4.1 – Arquiteturas Basicas
1.4.4.1.1 – Actor-Critic com TD Error
1.4.4.1.2 – Advantage Actor-Critic – A2C
1.4.4.1.3 – Asynchronous Advantage Actor-Critic – A3C
LEGENDA
Principal
Ramo
Metodo
Problemas
Modelo
Arquitetura

arquitetura de duas redes

Arquiteturas básicas de Actor-Critic usam redes separadas para ator e crítico. Diferente de arquiteturas compartilhadas, cada componente tem seus próprios parâmetros. Primeiramente, a rede do ator mapeia estados para ações ou distribuições de ações. Além disso, a rede do crítico mapeia estados para valores V(s). Por exemplo, ator e crítico aprendem de forma independente, mas compartilham observações.

vantagens da separação

Redes separadas permitem otimização independente de cada componente. Primeiramente, cada rede pode ter arquitetura adequada à sua função específica. Além disso, evita interferência entre objetivos de aprendizado diferentes. Por exemplo, ator pode usar saída contínua enquanto crítico usa escalar. É mais simples de implementar e depurar.

desvantagens e custos

Redes separadas dobram o número de parâmetros e custo computacional. Primeiramente, requerem mais memória e tempo de treinamento. Além disso, podem aprender representações diferentes para o mesmo estado. Por exemplo, características úteis para o crítico podem não ser usadas pelo ator. É menos eficiente em termos de amostras.

implementação prática

Arquiteturas básicas são ideais para começar com Actor-Critic. Primeiramente, ator usa gradiente de política com vantagem do crítico. Além disso, crítico aprende com erro quadrático entre V(s) e retornos. Por exemplo, usam otimizadores separados e taxas de aprendizado diferentes. Para iniciantes, é a porta de entrada para métodos Actor-Critic. Simples, eficaz e fácil de entender.

Deixe um comentário