1.4.6 – Aprendizado por Reforco Multiagente
ddpg para múltiplos agentes
MADDPG (Multi-Agent Deep Deterministic Policy Gradient) estende DDPG para ambientes multiagente. Desenvolvido pela OpenAI, usa arquitetura CTDE com críticos centralizados. Primeiramente, cada agente tem seu próprio ator e crítico. Além disso, o crítico de cada agente vê observações e ações de todos. Por exemplo, usado em jogos cooperativos e competitivos.
centralização com atores descentralizados
Durante treinamento, críticos têm informação global completa do ambiente. Primeiramente, cada crítico recebe estado global e ações de todos agentes. Além disso, atores usam apenas observações locais para decisão. Por exemplo, robôs aprendem coordenação com críticos centrais, executam localmente. Permite cooperação sem comunicação na execução.
estabilidade e não estacionariedade
Críticos centralizados estabilizam aprendizado em ambientes multiagente. Primeiramente, o ambiente visto por cada agente não é estacionário. Além disso, críticos com informação completa reduzem variância. Por exemplo, em jogos competitivos, agentes aprendem estratégias complexas. É robusto a mudanças nas políticas dos outros.
aplicações e legado
MADDPG foi pioneiro em aprendizado multiagente com ação contínua. Primeiramente, usado em jogos físicos, robótica e simulações. Além disso, inspirou algoritmos como MAPPO e QMIX. Por exemplo, aprendizado de perseguição-evitação. Para iniciantes, MADDPG mostra como estender DDPG para múltiplos agentes. É algoritmo fundamental em multiagente.