MADDPG

1.4 – Por Reforco
1.4.6 – Aprendizado por Reforco Multiagente
1.4.6.1.2 – MADDPG
LEGENDA
Principal
Ramo
Metodo
Problemas
Modelo
Arquitetura

ddpg para múltiplos agentes

MADDPG (Multi-Agent Deep Deterministic Policy Gradient) estende DDPG para ambientes multiagente. Desenvolvido pela OpenAI, usa arquitetura CTDE com críticos centralizados. Primeiramente, cada agente tem seu próprio ator e crítico. Além disso, o crítico de cada agente vê observações e ações de todos. Por exemplo, usado em jogos cooperativos e competitivos.

centralização com atores descentralizados

Durante treinamento, críticos têm informação global completa do ambiente. Primeiramente, cada crítico recebe estado global e ações de todos agentes. Além disso, atores usam apenas observações locais para decisão. Por exemplo, robôs aprendem coordenação com críticos centrais, executam localmente. Permite cooperação sem comunicação na execução.

estabilidade e não estacionariedade

Críticos centralizados estabilizam aprendizado em ambientes multiagente. Primeiramente, o ambiente visto por cada agente não é estacionário. Além disso, críticos com informação completa reduzem variância. Por exemplo, em jogos competitivos, agentes aprendem estratégias complexas. É robusto a mudanças nas políticas dos outros.

aplicações e legado

MADDPG foi pioneiro em aprendizado multiagente com ação contínua. Primeiramente, usado em jogos físicos, robótica e simulações. Além disso, inspirou algoritmos como MAPPO e QMIX. Por exemplo, aprendizado de perseguição-evitação. Para iniciantes, MADDPG mostra como estender DDPG para múltiplos agentes. É algoritmo fundamental em multiagente.

Deixe um comentário