Aprendizado por Reforco Multiagente

bebê aprendendo a andar
1.4 – Por Reforco
1.4.6 – Aprendizado por Reforco Multiagente
1.4.6.1.1 – Treinamento Centralizado e Execucao Descentralizada – CTDE
1.4.6.1.2 – MADDPG
LEGENDA
Principal
Ramo
Metodo
Problemas
Modelo
Arquitetura

múltiplos agentes interagindo

Aprendizado por reforço multiagente envolve vários agentes aprendendo simultaneamente no mesmo ambiente. Diferente do caso single-agent, a dinâmica muda conforme outros agentes aprendem. Primeiramente, cada agente tem sua própria política e objetivo. Além disso, o ambiente não é estacionário do ponto de vista de cada agente. Por exemplo, robôs colaborando em uma tarefa ou competindo em um jogo.

cooperação versus competição

Agentes podem cooperar para maximizar recompensa compartilhada ou competir por recursos. Primeiramente, ambientes cooperativos têm recompensa comum ou equipe compartilhada. Além disso, ambientes competitivos têm recompensas opostas, como jogos de soma zero. Por exemplo, times de futebol cooperam internamente, competem contra adversários.

desafios e não estacionariedade

O ambiente não é estacionário porque políticas dos outros agentes mudam. Primeiramente, isso viola suposições de algoritmos single-agent tradicionais. Além disso, aprendizado pode ser instável sem coordenação adequada. Por exemplo, cada agente vê outros como parte do ambiente que evolui.

aplicações em sistemas complexos

Aprendizado multiagente é usado em tráfego, economia, robótica e jogos. Primeiramente, veículos autônomos interagem no trânsito cooperativamente. Além disso, sistemas de recomendação competem por atenção de usuários. Por exemplo, agentes em leilões automáticos ou mercados financeiros. Para iniciantes, mostra além do agente único. É essencial para sistemas reais complexos.

Thompson Sampling

bebê aprendendo a andar
1.4.5 – Exploracao vs. Explotacao
1.4.5.1 – Estrategias
1.4.5.1.4 – Thompson Sampling
LEGENDA
Principal
Ramo
Metodo
Problemas
Modelo
Arquitetura

exploração probabilística bayesiana

Thompson Sampling é uma estratégia que amostra ações da distribuição posterior de recompensas. Diferente de UCB, ela usa incerteza completa através de amostragem probabilística. Primeiramente, mantém distribuição de crença sobre cada ação. Além disso, amostra um valor de cada distribuição e escolhe o maior. Por exemplo, Beta(α,β) para recompensas binárias.

funcionamento passo a passo

O algoritmo atualiza distribuições após cada observação de recompensa. Primeiramente, para cada ação, amostra um valor da sua distribuição posterior. Além disso, executa ação com maior valor amostrado. Por exemplo, em bandido binomial, usa distribuição Beta. A amostragem naturalmente explora ações incertas.

vantagens sobre ucb e epsilon-greedy

Thompson Sampling tem desempenho superior em muitos problemas práticos. Primeiramente, explora automaticamente na proporção da incerteza. Além disso, implementação simples e eficiente computacionalmente. Por exemplo, supera UCB em experimentos A/B com múltiplas variantes. É estado da arte em bandidos.

aplicações e popularidade

Thompson Sampling é amplamente utilizado em sistemas de recomendação. Primeiramente, usado por empresas como Google, Amazon e Netflix. Além disso, funciona bem para otimização online e testes A/B. Por exemplo, escolha de anúncios e recomendações personalizadas. Para iniciantes, mostra exploração bayesiana inteligente. É uma estratégia poderosa e moderna.