Arquiteturas para Aprendizado por Reforço Multiagente

bebê aprendendo a andar

aprendizado centralizado e descentralizado

Arquiteturas multiagente variam entre aprendizado centralizado e descentralizado. No aprendizado centralizado, um controlador coordena todas as ações dos agentes. No aprendizado descentralizado, cada agente aprende independentemente com observações locais. Primeiramente, centralizado é mais fácil, mas não escala bem. Além disso, descentralizado escala, mas sofre com não estacionariedade.

centralizado para treino, descentralizado para execução

Arquiteturas como CTDE (Centralized Training, Decentralized Execution) combinam os benefícios. Primeiramente, treinam com informações globais de todos os agentes. Além disso, executam apenas com observações locais, sem comunicação. Por exemplo, MADDPG e QMIX usam essa abordagem. É o estado da arte.

aprendizado multiagente com comunicação

Agentes podem compartilhar informações através de canais de comunicação. Primeiramente, comunicação permite coordenação sem controlador central. Além disso, pode ser aprendida ou fixa. Por exemplo, agentes em jogos cooperativos compartilham intenções.

escolha da arquitetura

A escolha depende da aplicação e restrições de comunicação. Primeiramente, CTDE é padrão para problemas cooperativos. Além disso, descentralizado puro é usado quando comunicação é impossível. Por exemplo, robôs em ambientes competitivos. Para iniciantes, mostra diferentes formas de coordenação. É fundamental para sistemas multiagente eficazes.

Aprendizado por Reforco Multiagente

bebê aprendendo a andar

múltiplos agentes interagindo

Aprendizado por reforço multiagente envolve vários agentes aprendendo simultaneamente no mesmo ambiente. Diferente do caso single-agent, a dinâmica muda conforme outros agentes aprendem. Primeiramente, cada agente tem sua própria política e objetivo. Além disso, o ambiente não é estacionário do ponto de vista de cada agente. Por exemplo, robôs colaborando em uma tarefa ou competindo em um jogo.

cooperação versus competição

Agentes podem cooperar para maximizar recompensa compartilhada ou competir por recursos. Primeiramente, ambientes cooperativos têm recompensa comum ou equipe compartilhada. Além disso, ambientes competitivos têm recompensas opostas, como jogos de soma zero. Por exemplo, times de futebol cooperam internamente, competem contra adversários.

desafios e não estacionariedade

O ambiente não é estacionário porque políticas dos outros agentes mudam. Primeiramente, isso viola suposições de algoritmos single-agent tradicionais. Além disso, aprendizado pode ser instável sem coordenação adequada. Por exemplo, cada agente vê outros como parte do ambiente que evolui.

aplicações em sistemas complexos

Aprendizado multiagente é usado em tráfego, economia, robótica e jogos. Primeiramente, veículos autônomos interagem no trânsito cooperativamente. Além disso, sistemas de recomendação competem por atenção de usuários. Por exemplo, agentes em leilões automáticos ou mercados financeiros. Para iniciantes, mostra além do agente único. É essencial para sistemas reais complexos.