1.4.6 – Aprendizado por Reforco Multiagente
1.4.6.1.1 – Treinamento Centralizado e Execucao Descentralizada – CTDE
o melhor dos dois mundos
CTDE (Centralized Training, Decentralized Execution) é a arquitetura dominante para aprendizado multiagente. Durante treinamento, usa informações globais de todos os agentes para estabilidade. Durante execução, cada agente age apenas com suas observações locais. Primeiramente, isso resolve o problema de não estacionariedade durante treinamento. Além disso, permite escalabilidade na execução sem comunicação central.
como funciona na prática
O treinamento centralizado usa um crítico que vê estados e ações de todos agentes. Primeiramente, o crítico tem informação completa para avaliar ações cooperativas. Além disso, cada ator é descentralizado, usando apenas observações locais. Por exemplo, MADDPG e QMIX implementam CTDE. Agentes aprendem cooperação sem comunicação na execução.
vantagens do ctde
CTDE resolve o problema de crédito e coordenação em equipes. Primeiramente, crítico central vê toda informação, facilitando aprendizado de cooperação. Além disso, execução descentralizada é robusta e escalável. Por exemplo, robôs em fábrica treinam com supervisão central, executam autonomamente. É estado da arte.
aplicações e legado
CTDE é usado em jogos cooperativos, robótica e veículos autônomos. Primeiramente, alcançou sucesso em StarCraft e problemas de coordenação. Além disso, base para algoritmos como MAPPO e HATRPO. Por exemplo, drones cooperativos usam CTDE. Para iniciantes, CTDE mostra coordenação eficiente em equipe. É arquitetura fundamental em multiagente.