antonino, Autor em Área de Trampo

Categorias

ddpg para múltiplos agentes

MADDPG (Multi-Agent Deep Deterministic Policy Gradient) estende DDPG para ambientes multiagente. Desenvolvido pela OpenAI, usa arquitetura CTDE com críticos centralizados. Primeiramente, cada agente tem seu próprio ator e crítico. Além disso, o crítico de cada agente vê observações e ações de todos. Por exemplo, usado em jogos cooperativos e competitivos.

centralização com atores descentralizados

Durante treinamento, críticos têm informação global completa do ambiente. Primeiramente, cada crítico recebe estado global e ações de todos agentes. Além disso, atores usam apenas observações locais para decisão. Por exemplo, robôs aprendem coordenação com críticos centrais, executam localmente. Permite cooperação sem comunicação na execução.

estabilidade e não estacionariedade

Críticos centralizados estabilizam aprendizado em ambientes multiagente. Primeiramente, o ambiente visto por cada agente não é estacionário. Além disso, críticos com informação completa reduzem variância. Por exemplo, em jogos competitivos, agentes aprendem estratégias complexas. É robusto a mudanças nas políticas dos outros.

aplicações e legado

MADDPG foi pioneiro em aprendizado multiagente com ação contínua. Primeiramente, usado em jogos físicos, robótica e simulações. Além disso, inspirou algoritmos como MAPPO e QMIX. Por exemplo, aprendizado de perseguição-evitação. Para iniciantes, MADDPG mostra como estender DDPG para múltiplos agentes. É algoritmo fundamental em multiagente.

o melhor dos dois mundos

CTDE (Centralized Training, Decentralized Execution) é a arquitetura dominante para aprendizado multiagente. Durante treinamento, usa informações globais de todos os agentes para estabilidade. Durante execução, cada agente age apenas com suas observações locais. Primeiramente, isso resolve o problema de não estacionariedade durante treinamento. Além disso, permite escalabilidade na execução sem comunicação central.

como funciona na prática

O treinamento centralizado usa um crítico que vê estados e ações de todos agentes. Primeiramente, o crítico tem informação completa para avaliar ações cooperativas. Além disso, cada ator é descentralizado, usando apenas observações locais. Por exemplo, MADDPG e QMIX implementam CTDE. Agentes aprendem cooperação sem comunicação na execução.

vantagens do ctde

CTDE resolve o problema de crédito e coordenação em equipes. Primeiramente, crítico central vê toda informação, facilitando aprendizado de cooperação. Além disso, execução descentralizada é robusta e escalável. Por exemplo, robôs em fábrica treinam com supervisão central, executam autonomamente. É estado da arte.

aplicações e legado

CTDE é usado em jogos cooperativos, robótica e veículos autônomos. Primeiramente, alcançou sucesso em StarCraft e problemas de coordenação. Além disso, base para algoritmos como MAPPO e HATRPO. Por exemplo, drones cooperativos usam CTDE. Para iniciantes, CTDE mostra coordenação eficiente em equipe. É arquitetura fundamental em multiagente.