Treinamento Centralizado e Execucao Descentralizada – CTDE

bebê aprendendo a andar
1.4 – Por Reforco
1.4.6 – Aprendizado por Reforco Multiagente
1.4.6.1.1 – Treinamento Centralizado e Execucao Descentralizada – CTDE
LEGENDA
Principal
Ramo
Metodo
Problemas
Modelo
Arquitetura

o melhor dos dois mundos

CTDE (Centralized Training, Decentralized Execution) é a arquitetura dominante para aprendizado multiagente. Durante treinamento, usa informações globais de todos os agentes para estabilidade. Durante execução, cada agente age apenas com suas observações locais. Primeiramente, isso resolve o problema de não estacionariedade durante treinamento. Além disso, permite escalabilidade na execução sem comunicação central.

como funciona na prática

O treinamento centralizado usa um crítico que vê estados e ações de todos agentes. Primeiramente, o crítico tem informação completa para avaliar ações cooperativas. Além disso, cada ator é descentralizado, usando apenas observações locais. Por exemplo, MADDPG e QMIX implementam CTDE. Agentes aprendem cooperação sem comunicação na execução.

vantagens do ctde

CTDE resolve o problema de crédito e coordenação em equipes. Primeiramente, crítico central vê toda informação, facilitando aprendizado de cooperação. Além disso, execução descentralizada é robusta e escalável. Por exemplo, robôs em fábrica treinam com supervisão central, executam autonomamente. É estado da arte.

aplicações e legado

CTDE é usado em jogos cooperativos, robótica e veículos autônomos. Primeiramente, alcançou sucesso em StarCraft e problemas de coordenação. Além disso, base para algoritmos como MAPPO e HATRPO. Por exemplo, drones cooperativos usam CTDE. Para iniciantes, CTDE mostra coordenação eficiente em equipe. É arquitetura fundamental em multiagente.

Arquiteturas para Aprendizado por Reforço Multiagente

bebê aprendendo a andar
1.4.6 – Aprendizado por Reforco Multiagente
1.4.6.1 – Arquiteturas para Aprendizado por Reforco Multiagente
1.4.6.1.1 – Treinamento Centralizado e Execucao Descentralizada – CTDE
1.4.6.1.2 – MADDPG
LEGENDA
Principal
Ramo
Metodo
Problemas
Modelo
Arquitetura

aprendizado centralizado e descentralizado

Arquiteturas multiagente variam entre aprendizado centralizado e descentralizado. No aprendizado centralizado, um controlador coordena todas as ações dos agentes. No aprendizado descentralizado, cada agente aprende independentemente com observações locais. Primeiramente, centralizado é mais fácil, mas não escala bem. Além disso, descentralizado escala, mas sofre com não estacionariedade.

centralizado para treino, descentralizado para execução

Arquiteturas como CTDE (Centralized Training, Decentralized Execution) combinam os benefícios. Primeiramente, treinam com informações globais de todos os agentes. Além disso, executam apenas com observações locais, sem comunicação. Por exemplo, MADDPG e QMIX usam essa abordagem. É o estado da arte.

aprendizado multiagente com comunicação

Agentes podem compartilhar informações através de canais de comunicação. Primeiramente, comunicação permite coordenação sem controlador central. Além disso, pode ser aprendida ou fixa. Por exemplo, agentes em jogos cooperativos compartilham intenções.

escolha da arquitetura

A escolha depende da aplicação e restrições de comunicação. Primeiramente, CTDE é padrão para problemas cooperativos. Além disso, descentralizado puro é usado quando comunicação é impossível. Por exemplo, robôs em ambientes competitivos. Para iniciantes, mostra diferentes formas de coordenação. É fundamental para sistemas multiagente eficazes.