1.4.4 – Metodos Actor-Critic
1.4.4.1 – Arquiteturas Basicas
1.4.4.1.1 – Actor-Critic com TD Error
1.4.4.1.2 – Advantage Actor-Critic – A2C
1.4.4.1.3 – Asynchronous Advantage Actor-Critic – A3C
arquitetura de duas redes
Arquiteturas básicas de Actor-Critic usam redes separadas para ator e crítico. Diferente de arquiteturas compartilhadas, cada componente tem seus próprios parâmetros. Primeiramente, a rede do ator mapeia estados para ações ou distribuições de ações. Além disso, a rede do crítico mapeia estados para valores V(s). Por exemplo, ator e crítico aprendem de forma independente, mas compartilham observações.
vantagens da separação
Redes separadas permitem otimização independente de cada componente. Primeiramente, cada rede pode ter arquitetura adequada à sua função específica. Além disso, evita interferência entre objetivos de aprendizado diferentes. Por exemplo, ator pode usar saída contínua enquanto crítico usa escalar. É mais simples de implementar e depurar.
desvantagens e custos
Redes separadas dobram o número de parâmetros e custo computacional. Primeiramente, requerem mais memória e tempo de treinamento. Além disso, podem aprender representações diferentes para o mesmo estado. Por exemplo, características úteis para o crítico podem não ser usadas pelo ator. É menos eficiente em termos de amostras.
implementação prática
Arquiteturas básicas são ideais para começar com Actor-Critic. Primeiramente, ator usa gradiente de política com vantagem do crítico. Além disso, crítico aprende com erro quadrático entre V(s) e retornos. Por exemplo, usam otimizadores separados e taxas de aprendizado diferentes. Para iniciantes, é a porta de entrada para métodos Actor-Critic. Simples, eficaz e fácil de entender.