Treinamento Centralizado e Execucao Descentralizada – CTDE

bebê aprendendo a andar
1.4 – Por Reforco
1.4.6 – Aprendizado por Reforco Multiagente
1.4.6.1.1 – Treinamento Centralizado e Execucao Descentralizada – CTDE
LEGENDA
Principal
Ramo
Metodo
Problemas
Modelo
Arquitetura

o melhor dos dois mundos

CTDE (Centralized Training, Decentralized Execution) é a arquitetura dominante para aprendizado multiagente. Durante treinamento, usa informações globais de todos os agentes para estabilidade. Durante execução, cada agente age apenas com suas observações locais. Primeiramente, isso resolve o problema de não estacionariedade durante treinamento. Além disso, permite escalabilidade na execução sem comunicação central.

como funciona na prática

O treinamento centralizado usa um crítico que vê estados e ações de todos agentes. Primeiramente, o crítico tem informação completa para avaliar ações cooperativas. Além disso, cada ator é descentralizado, usando apenas observações locais. Por exemplo, MADDPG e QMIX implementam CTDE. Agentes aprendem cooperação sem comunicação na execução.

vantagens do ctde

CTDE resolve o problema de crédito e coordenação em equipes. Primeiramente, crítico central vê toda informação, facilitando aprendizado de cooperação. Além disso, execução descentralizada é robusta e escalável. Por exemplo, robôs em fábrica treinam com supervisão central, executam autonomamente. É estado da arte.

aplicações e legado

CTDE é usado em jogos cooperativos, robótica e veículos autônomos. Primeiramente, alcançou sucesso em StarCraft e problemas de coordenação. Além disso, base para algoritmos como MAPPO e HATRPO. Por exemplo, drones cooperativos usam CTDE. Para iniciantes, CTDE mostra coordenação eficiente em equipe. É arquitetura fundamental em multiagente.

Aprendizado por Reforco Multiagente

bebê aprendendo a andar
1.4 – Por Reforco
1.4.6 – Aprendizado por Reforco Multiagente
1.4.6.1.1 – Treinamento Centralizado e Execucao Descentralizada – CTDE
1.4.6.1.2 – MADDPG
LEGENDA
Principal
Ramo
Metodo
Problemas
Modelo
Arquitetura

múltiplos agentes interagindo

Aprendizado por reforço multiagente envolve vários agentes aprendendo simultaneamente no mesmo ambiente. Diferente do caso single-agent, a dinâmica muda conforme outros agentes aprendem. Primeiramente, cada agente tem sua própria política e objetivo. Além disso, o ambiente não é estacionário do ponto de vista de cada agente. Por exemplo, robôs colaborando em uma tarefa ou competindo em um jogo.

cooperação versus competição

Agentes podem cooperar para maximizar recompensa compartilhada ou competir por recursos. Primeiramente, ambientes cooperativos têm recompensa comum ou equipe compartilhada. Além disso, ambientes competitivos têm recompensas opostas, como jogos de soma zero. Por exemplo, times de futebol cooperam internamente, competem contra adversários.

desafios e não estacionariedade

O ambiente não é estacionário porque políticas dos outros agentes mudam. Primeiramente, isso viola suposições de algoritmos single-agent tradicionais. Além disso, aprendizado pode ser instável sem coordenação adequada. Por exemplo, cada agente vê outros como parte do ambiente que evolui.

aplicações em sistemas complexos

Aprendizado multiagente é usado em tráfego, economia, robótica e jogos. Primeiramente, veículos autônomos interagem no trânsito cooperativamente. Além disso, sistemas de recomendação competem por atenção de usuários. Por exemplo, agentes em leilões automáticos ou mercados financeiros. Para iniciantes, mostra além do agente único. É essencial para sistemas reais complexos.