Arquiteturas para Aprendizado por Reforço Multiagente

4.6 – Aprendizado por Reforco Multiagente
4.6.1 – Arquiteturas para Aprendizado por Reforco Multiagente
4.6.1.1 – Treinamento Centralizado e Execucao Descentralizada – CTDE
4.6.1.2 – MADDPG

LEGENDA

Principal

Ramo

Metodo

Problemas

Modelo

Arquitetura

aprendizado centralizado e descentralizado

Arquiteturas multiagente variam entre aprendizado centralizado e descentralizado. No aprendizado centralizado, um controlador coordena todas as ações dos agentes. No aprendizado descentralizado, cada agente aprende independentemente com observações locais. Primeiramente, centralizado é mais fácil, mas não escala bem. Além disso, descentralizado escala, mas sofre com não estacionariedade.

centralizado para treino, descentralizado para execução

Arquiteturas como CTDE (Centralized Training, Decentralized Execution) combinam os benefícios. Primeiramente, treinam com informações globais de todos os agentes. Além disso, executam apenas com observações locais, sem comunicação. Por exemplo, MADDPG e QMIX usam essa abordagem. É o estado da arte.

aprendizado multiagente com comunicação

Agentes podem compartilhar informações através de canais de comunicação. Primeiramente, comunicação permite coordenação sem controlador central. Além disso, pode ser aprendida ou fixa. Por exemplo, agentes em jogos cooperativos compartilham intenções.

escolha da arquitetura

A escolha depende da aplicação e restrições de comunicação. Primeiramente, CTDE é padrão para problemas cooperativos. Além disso, descentralizado puro é usado quando comunicação é impossível. Por exemplo, robôs em ambientes competitivos. Para iniciantes, mostra diferentes formas de coordenação. É fundamental para sistemas multiagente eficazes.

Indice

aprendizado centralizado e descentralizado

centralizado para treino, descentralizado para execução

aprendizado multiagente com comunicação

escolha da arquitetura

Deixe um comentário Cancelar resposta