Aprendizado por reforço: função de valor e ação-valor

A função de valor estima o quão bom é um estado. Ela prevê o retorno futuro esperado a partir dali. Por outro lado, a função ação-valor Q(s,a) avalia um par estado-ação. Assim, o agente pode comparar diferentes escolhas. Essas funções são fundamentais para planejamento e aprendizado.

Definição formal de V(s) e Q(s,a)

A função valor V(s) é definida como \( V^\pi(s) = \mathbb{E}_\pi \left[ G_t \mid S_t = s \right] \). Ela depende da política π seguida pelo agente. Já a função ação-valor é \( Q^\pi(s,a) = \mathbb{E}_\pi \left[ G_t \mid S_t = s, A_t = a \right] \). A diferença entre elas é o momento da ação. Primeiro, V(s) assume que a política já foi definida. Segundo, Q(s,a) permite testar ações específicas. Consequentemente, Q é mais flexível para aprendizado.

Ambas as funções obedecem à equação de Bellman. Para V(s), temos \( V^\pi(s) = \sum_a \pi(a|s) \sum_{s’,r} p(s’,r|s,a) [r + \gamma V^\pi(s’)] \). Para Q(s,a), a equação é \( Q^\pi(s,a) = \sum_{s’,r} p(s’,r|s,a) [r + \gamma \sum_{a’} \pi(a’|s’) Q^\pi(s’,a’)] \). Essas equações relacionam valor presente e futuro. Portanto, elas permitem calcular V e Q recursivamente.

Arquiteturas e hiperparâmetros comuns

Uma tabela armazena V(s) ou Q(s,a) para espaços discretos pequenos. Porém, em problemas grandes, usamos aproximadores. Redes neurais profundas são a escolha mais comum. A arquitetura típica inclui camadas convolucionais (para imagens) ou densas (para vetores). A saída da rede pode ser um único valor V(s). Alternativamente, a rede pode ter múltiplos neurônios de saída, um para cada Q(s,a).

Os hiperparâmetros críticos são a taxa de aprendizado α, o fator de desconto γ, e a taxa de exploração ε. Além disso, o tamanho do replay buffer é importante (ex: 10000 transições). O batch size (ex: 32) afeta a estabilidade. A frequência de atualização da rede alvo (ex: a cada 100 passos) também é usada. Esses parâmetros são ajustados empiricamente.

Exemplo clássico: FrozenLake com Q-learning

Imagine um lago congelado dividido em uma grade 4×4. O objetivo do aventureiro é chegar ao bloco de gelo seguro (posição (3,3) – canto inferior direito). Porém, existem 4 buracos (gelo fino) espalhados pelo lago. Se o aventureiro cair em um buraco, ele morre e o episódio termina com recompensa 0.

Regras do ambiente:

Gelo seguro (caminho normal): 12 posições onde o aventureiro pode andar. Cada passo dá recompensa 0.

Buracos (perigo): 4 posições onde o gelo quebra. Cair neles dá recompensa 0 e encerra o jogo.

Objetivo (gelo seguro especial): 1 posição (canto inferior direito). Chegar lá dá recompensa +1 e encerra o jogo com vitória.

Estocasticidade: O gelo é escorregadio. Quando o aventureiro tenta mover-se em uma direção, ele pode escorregar para os lados (probabilidade 1/3 para cada direção adjacente). Isso torna o aprendizado desafiador. Mapa Visual:

(0,0) S  S  S  S
(1,0) S  B  S  B
(2,0) S  B  S  S
(3,0) S  S  G  B

Onde: S = Seguro | B = Buraco (perigo) | G = Objetivo (meta)

(0,0) S S S S

(1,0) S B S B

(2,0) S B S S

(3,0) S S G B

Onde: S = Seguro | B = Buraco (perigo) | G = Objetivo (meta)

import numpy as np
import matplotlib.pyplot as plt
import random
from tqdm import tqdm
import time

print("=" * 70)
print("FROZENLAKE - TREINAMENTO COM 4 AGENTES (VERSÃO ESTÁVEL)")
print("=" * 70)

# ============================================
# CLASSE DO AMBIENTE FROZENLAKE
# ============================================

class FrozenLakeAmbiente:
    """Ambiente FrozenLake 4x4 - Versão estável"""
    
    def __init__(self, is_slippery=True):
        self.mapa = np.array([
            [0, 3, 3, 3],
            [3, 1, 3, 1],
            [3, 1, 3, 3],
            [3, 3, 2, 1]
        ], dtype=np.int8)
        
        self.is_slippery = is_slippery
        self.n_states = 16
        self.n_actions = 4
        self.start_state = 0
        self._precompute_transitions()
        
    def _precompute_transitions(self):
        """Pré-calcula todas as transições"""
        self.transitions = {}
        for state in range(self.n_states):
            linha, coluna = state // 4, state % 4
            self.transitions[state] = {}
            for acao in range(self.n_actions):
                if self.is_slippery:
                    acoes_possiveis = [
                        acao,
                        {0: 2, 1: 3, 2: 1, 3: 0}[acao],
                        {0: 3, 1: 2, 2: 0, 3: 1}[acao]
                    ]
                    probs = [0.33, 0.33, 0.34]
                else:
                    acoes_possiveis = [acao]
                    probs = [1.0]
                
                resultados = []
                for acao_real, prob in zip(acoes_possiveis, probs):
                    nl, nc = linha, coluna
                    if acao_real == 0: nl = max(0, linha - 1)
                    elif acao_real == 1: nl = min(3, linha + 1)
                    elif acao_real == 2: nc = max(0, coluna - 1)
                    elif acao_real == 3: nc = min(3, coluna + 1)
                    
                    novo_state = nl * 4 + nc
                    tipo = self.mapa[nl, nc]
                    
                    if tipo == 2:
                        recompensa = 1.0
                        done = True
                    elif tipo == 1:
                        recompensa = 0.0
                        done = True
                    else:
                        recompensa = 0.0
                        done = False
                    
                    resultados.append((novo_state, recompensa, done, prob))
                
                self.transitions[state][acao] = resultados
    
    def reset(self):
        return self.start_state
    
    def step_fast(self, state, acao):
        resultados = self.transitions[state][acao]
        r = random.random()
        cum_prob = 0
        for novo_state, recompensa, done, prob in resultados:
            cum_prob += prob
            if r <= cum_prob:
                return novo_state, recompensa, done
        return resultados[-1][:3]


# ============================================
# AGENTE Q-LEARNING
# ============================================

class AgenteQLearning:
    def __init__(self, n_states, n_actions, alpha=0.8, gamma=0.95, epsilon=0.3):
        self.Q = np.zeros((n_states, n_actions))
        self.alpha = alpha
        self.gamma = gamma
        self.epsilon = epsilon
        self.epsilon_min = 0.01
        self.epsilon_decay = 0.995
        
    def escolher_acao(self, state):
        if np.random.rand() < self.epsilon:
            return np.random.randint(4)
        return np.argmax(self.Q[state])
    
    def atualizar(self, state, acao, reward, next_state, done):
        if done:
            target = reward
        else:
            target = reward + self.gamma * np.max(self.Q[next_state])
        self.Q[state, acao] += self.alpha * (target - self.Q[state, acao])
    
    def decair_epsilon(self):
        self.epsilon = max(self.epsilon_min, self.epsilon * self.epsilon_decay)


# ============================================
# FUNÇÃO PARA TESTAR AGENTE (MAIS RÁPIDA)
# ============================================

def testar_agente_rapido(Q, num_testes=100):
    """Testa agente rapidamente sem criar muitos objetos"""
    vitorias = 0
    
    for _ in range(num_testes):
        state = 0  # estado inicial
        feito = False
        passos = 0
        
        # Usa o ambiente global para evitar recriação
        while not feito and passos < 50:
            acao = np.argmax(Q[state])
            
            # Simula transição diretamente (sem criar novo ambiente)
            linha, coluna = state // 4, state % 4
            
            # Aplica escorregamento
            r = random.random()
            if r < 0.33:
                acao_real = acao
            elif r < 0.66:
                acao_real = {0: 2, 1: 3, 2: 1, 3: 0}[acao]
            else:
                acao_real = {0: 3, 1: 2, 2: 0, 3: 1}[acao]
            
            # Calcula novo estado
            nl, nc = linha, coluna
            if acao_real == 0: nl = max(0, linha - 1)
            elif acao_real == 1: nl = min(3, linha + 1)
            elif acao_real == 2: nc = max(0, coluna - 1)
            elif acao_real == 3: nc = min(3, coluna + 1)
            
            novo_state = nl * 4 + nc
            
            # Verifica recompensa
            tipo = env_global.mapa[nl, nc] if 'env_global' in globals() else 0
            # Simplificado: usa mapa fixo
            if nl == 3 and nc == 2:  # objetivo
                vitorias += 1
                break
            elif (nl == 1 and nc == 1) or (nl == 1 and nc == 3) or (nl == 2 and nc == 1) or (nl == 3 and nc == 3):
                break  # buraco
            
            state = novo_state
            passos += 1
    
    return vitorias / num_testes


# ============================================
# CRIA AMBIENTE GLOBAL PARA TESTES
# ============================================

env_global = FrozenLakeAmbiente(is_slippery=True)

# ============================================
# TREINAMENTO DOS 4 AGENTES
# ============================================

print("\n" + "=" * 70)
print("ETAPA 1: TREINANDO 4 AGENTES")
print("=" * 70)

num_episodios = 1500
num_agentes = 4

print(f"\n📊 Configuração:")
print(f"   - Agentes: {num_agentes}")
print(f"   - Episódios por agente: {num_episodios}")

resultados = []

for agente_id in range(num_agentes):
    print(f"\n🤖 Treinando Agente {agente_id + 1}/{num_agentes}")
    
    env = FrozenLakeAmbiente(is_slippery=True)
    agente = AgenteQLearning(16, 4)
    
    vitorias = np.zeros(num_episodios)
    
    with tqdm(total=num_episodios, desc=f"Agente {agente_id + 1}", 
              unit="ep", ncols=80, mininterval=0.05) as pbar:
        
        for ep in range(num_episodios):
            state = env.reset()
            feito = False
            venceu = False
            num_passos = 0
            
            while not feito and num_passos < 100:
                acao = agente.escolher_acao(state)
                next_state, reward, feito = env.step_fast(state, acao)
                agente.atualizar(state, acao, reward, next_state, feito)
                state = next_state
                num_passos += 1
                if reward > 0:
                    venceu = True
            
            vitorias[ep] = 1 if venceu else 0
            agente.decair_epsilon()
            
            # Atualiza barra a cada 5 episódios
            if ep % 5 == 0:
                taxa_recente = np.mean(vitorias[max(0, ep-99):ep+1]) * 100
                pbar.set_postfix({'Taxa': f'{taxa_recente:.1f}%'}, refresh=True)
                pbar.update(5)
            elif ep == 0:
                pbar.update(1)
    
    resultados.append({
        'id': agente_id,
        'Q': agente.Q.copy(),
        'vitorias': vitorias
    })

print("\n✅ Treinamento concluído!")

# ============================================
# ETAPA 2: TESTANDO CADA AGENTE (VERSÃO CORRIGIDA)
# ============================================

print("\n" + "=" * 70)
print("ETAPA 2: TESTANDO CADA AGENTE")
print("=" * 70)

print("\n🎮 Avaliando desempenho individual...")
print("   (Isso pode levar alguns segundos)\n")

taxas_agentes = []

# Testa cada agente individualmente com barra de progresso
for idx, r in enumerate(resultados):
    print(f"\n📊 Testando Agente {idx + 1}...")
    
    num_testes = 200
    vitorias = 0
    
    # Barra de progresso para o teste deste agente
    with tqdm(total=num_testes, desc=f"Agente {idx + 1}", 
              unit="teste", ncols=80, mininterval=0.01) as pbar:
        
        for teste_num in range(num_testes):
            state = 0
            feito = False
            passos = 0
            
            while not feito and passos < 50:
                acao = np.argmax(r['Q'][state])
                
                # Simula passo sem criar novo ambiente
                linha, coluna = state // 4, state % 4
                
                # Escorregamento
                rand = random.random()
                if rand < 0.33:
                    acao_real = acao
                elif rand < 0.66:
                    acao_real = {0: 2, 1: 3, 2: 1, 3: 0}[acao]
                else:
                    acao_real = {0: 3, 1: 2, 2: 0, 3: 1}[acao]
                
                # Move
                nl, nc = linha, coluna
                if acao_real == 0: nl = max(0, linha - 1)
                elif acao_real == 1: nl = min(3, linha + 1)
                elif acao_real == 2: nc = max(0, coluna - 1)
                elif acao_real == 3: nc = min(3, coluna + 1)
                
                novo_state = nl * 4 + nc
                
                # Verifica resultado
                if nl == 3 and nc == 2:  # objetivo
                    vitorias += 1
                    break
                elif (nl == 1 and nc == 1) or (nl == 1 and nc == 3) or \
                     (nl == 2 and nc == 1) or (nl == 3 and nc == 3):  # buraco
                    break
                
                state = novo_state
                passos += 1
            
            pbar.update(1)
            
            # Mostra taxa atual a cada 50 testes
            if (teste_num + 1) % 50 == 0:
                taxa_atual = (vitorias / (teste_num + 1)) * 100
                pbar.set_postfix({'Taxa': f'{taxa_atual:.1f}%'}, refresh=True)
    
    taxa = (vitorias / num_testes) * 100
    taxas_agentes.append(taxa)
    print(f"   ✅ Agente {idx + 1}: {taxa:.1f}% de sucesso")

# Mostra resumo
print("\n" + "-" * 50)
print("📊 RESUMO DOS TESTES:")
for idx, taxa in enumerate(taxas_agentes):
    print(f"   Agente {idx + 1}: {taxa:.1f}%")
print("-" * 50)

melhor_agente_idx = np.argmax(taxas_agentes)
print(f"\n🏆 Melhor agente: Agente {melhor_agente_idx + 1} com {taxas_agentes[melhor_agente_idx]:.1f}%")

# ============================================
# ETAPA 3: COMBINANDO AGENTES
# ============================================

print("\n" + "=" * 70)
print("ETAPA 3: COMBINANDO OS 4 AGENTES")
print("=" * 70)

print("\n🔄 Criando agente combinado...")

Q_combinado = np.zeros((16, 4))

with tqdm(total=16, desc="Combinando estados", unit="estado", ncols=80, mininterval=0.05) as pbar:
    for state in range(16):
        # Encontra melhor agente para este estado
        melhores_valores = [np.max(r['Q'][state]) for r in resultados]
        melhor_agente = np.argmax(melhores_valores)
        Q_combinado[state] = resultados[melhor_agente]['Q'][state].copy()
        pbar.update(1)

print("\n✅ Combinação concluída!")

# ============================================
# ETAPA 4: TESTANDO AGENTE COMBINADO
# ============================================

print("\n" + "=" * 70)
print("ETAPA 4: TESTANDO AGENTE COMBINADO")
print("=" * 70)

num_testes_combinado = 500
vitorias_combinado = 0

print(f"\n🎮 Testando em {num_testes_combinado} partidas...")

with tqdm(total=num_testes_combinado, desc="Testando combinado", 
          unit="partida", ncols=80, mininterval=0.01) as pbar:
    
    for teste_num in range(num_testes_combinado):
        state = 0
        feito = False
        passos = 0
        
        while not feito and passos < 50:
            acao = np.argmax(Q_combinado[state])
            
            # Simula passo
            linha, coluna = state // 4, state % 4
            
            rand = random.random()
            if rand < 0.33:
                acao_real = acao
            elif rand < 0.66:
                acao_real = {0: 2, 1: 3, 2: 1, 3: 0}[acao]
            else:
                acao_real = {0: 3, 1: 2, 2: 0, 3: 1}[acao]
            
            nl, nc = linha, coluna
            if acao_real == 0: nl = max(0, linha - 1)
            elif acao_real == 1: nl = min(3, linha + 1)
            elif acao_real == 2: nc = max(0, coluna - 1)
            elif acao_real == 3: nc = min(3, coluna + 1)
            
            if nl == 3 and nc == 2:  # objetivo
                vitorias_combinado += 1
                break
            elif (nl == 1 and nc == 1) or (nl == 1 and nc == 3) or \
                 (nl == 2 and nc == 1) or (nl == 3 and nc == 3):
                break
            
            state = nl * 4 + nc
            passos += 1
        
        pbar.update(1)
        
        # Mostra taxa atual frequentemente
        if (teste_num + 1) % 25 == 0:
            taxa_atual = (vitorias_combinado / (teste_num + 1)) * 100
            pbar.set_postfix({'Taxa': f'{taxa_atual:.1f}%'}, refresh=True)

taxa_combinado = (vitorias_combinado / num_testes_combinado) * 100
print(f"\n🏆 Agente combinado: {taxa_combinado:.1f}% de sucesso")

# ============================================
# VISUALIZAÇÃO
# ============================================

print("\n" + "=" * 70)
print("ETAPA 5: GERANDO GRÁFICOS")
print("=" * 70)

plt.figure(figsize=(15, 5))

# Gráfico 1: Evolução dos agentes
plt.subplot(1, 3, 1)
for r in resultados:
    media = np.convolve(r['vitorias'], np.ones(100)/100, mode='valid')
    plt.plot(range(99, num_episodios), media, alpha=0.6, linewidth=1)
plt.xlabel('Episódio')
plt.ylabel('Taxa de vitória')
plt.title('Evolução do Aprendizado')
plt.ylim(0, 1)
plt.grid(True, alpha=0.3)

# Gráfico 2: Função Valor
plt.subplot(1, 3, 2)
V = np.max(Q_combinado, axis=1).reshape(4, 4)
im = plt.imshow(V, cmap='RdYlGn', interpolation='nearest', vmin=0, vmax=1)
plt.colorbar(im, label='Valor')
for i in range(4):
    for j in range(4):
        if env_global.mapa[i, j] == 1:
            plt.text(j, i, '💀', ha='center', va='center', fontsize=16)
        elif env_global.mapa[i, j] == 2:
            plt.text(j, i, '🎯', ha='center', va='center', fontsize=16)
        else:
            plt.text(j, i, f'{V[i,j]:.2f}', ha='center', va='center', fontsize=9)
plt.title('Função Valor V(s)')
plt.xlabel('Coluna')
plt.ylabel('Linha')

# Gráfico 3: Política
plt.subplot(1, 3, 3)
setas = ['↑', '↓', '←', '→']
for i in range(4):
    for j in range(4):
        state = i * 4 + j
        tipo = env_global.mapa[i, j]
        if tipo == 1:
            plt.text(j, i, '💀', ha='center', va='center', fontsize=20, color='red')
        elif tipo == 2:
            plt.text(j, i, '🏆', ha='center', va='center', fontsize=20)
        else:
            melhor_acao = np.argmax(Q_combinado[state])
            plt.text(j, i, setas[melhor_acao], ha='center', va='center', fontsize=22)
plt.xlim(-0.5, 3.5)
plt.ylim(3.5, -0.5)
plt.title('Política Ótima')
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# ============================================
# RELATÓRIO FINAL
# ============================================

print("\n" + "=" * 70)
print("RELATÓRIO FINAL")
print("=" * 70)

print(f"""
✅ RESULTADOS:
   - Melhor agente individual: {max(taxas_agentes):.1f}%
   - Agente combinado: {taxa_combinado:.1f}%
   - Melhoria: {taxa_combinado - max(taxas_agentes):.1f}%

📋 MAPA DO LAGO (com política aprendida):
""")

print("    Col0 Col1 Col2 Col3")
for i in range(4):
    linha = f"Lin{i}: "
    for j in range(4):
        state = i * 4 + j
        tipo = env_global.mapa[i, j]
        if tipo == 1:
            linha += "  💀  "
        elif tipo == 2:
            linha += "  🏆  "
        else:
            melhor = np.argmax(Q_combinado[state])
            setas = ['↑', '↓', '←', '→']
            linha += f"  {setas[melhor]}  "
    print(linha)

print("\n" + "=" * 70)
print("✅ PROGRAMA CONCLUÍDO!")
print("=" * 70)

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151

152

153

154

155

156

157

158

159

160

161

162

163

164

165

166

167

168

169

170

171

172

173

174

175

176

177

178

179

180

181

182

183

184

185

186

187

188

189

190

191

192

193

194

195

196

197

198

199

200

201

202

203

204

205

206

207

208

209

210

211

212

213

214

215

216

217

218

219

220

221

222

223

224

225

226

227

228

229

230

231

232

233

234

235

236

237

238

239

240

241

242

243

244

245

246

247

248

249

250

251

252

253

254

255

256

257

258

259

260

261

262

263

264

265

266

267

268

269

270

271

272

273

274

275

276

277

278

279

280

281

282

283

284

285

286

287

288

289

290

291

292

293

294

295

296

297

298

299

300

301

302

303

304

305

306

307

308

309

310

311

312

313

314

315

316

317

318

319

320

321

322

323

324

325

326

327

328

329

330

331

332

333

334

335

336

337

338

339

340

341

342

343

344

345

346

347

348

349

350

351

352

353

354

355

356

357

358

359

360

361

362

363

364

365

366

367

368

369

370

371

372

373

374

375

376

377

378

379

380

381

382

383

384

385

386

387

388

389

390

391

392

393

394

395

396

397

398

399

400

401

402

403

404

405

406

407

408

409

410

411

412

413

414

415

416

417

418

419

420

421

422

423

424

425

426

427

428

429

430

431

432

433

434

435

436

437

438

439

440

441

442

443

444

445

446

447

448

449

450

451

452

453

454

455

456

457

458

459

460

461

462

463

464

465

466

467

468

469

470

471

472

473

474

475

476

477

478

479

480

481

482

483

484

485

486

487

488

489

490

491

492

493

494

495

496

497

498

499

500

501

502

import numpy as np

import matplotlib.pyplot as plt

import random

from tqdm import tqdm

import time

print("=" * 70)

print("FROZENLAKE - TREINAMENTO COM 4 AGENTES (VERSÃO ESTÁVEL)")

print("=" * 70)

# ============================================

# CLASSE DO AMBIENTE FROZENLAKE

# ============================================

class FrozenLakeAmbiente:

"""Ambiente FrozenLake 4x4 - Versão estável"""

def __init__(self, is_slippery=True):

self.mapa = np.array([

[0, 3, 3, 3],

[3, 1, 3, 1],

[3, 1, 3, 3],

[3, 3, 2, 1]

], dtype=np.int8)

self.is_slippery = is_slippery

self.n_states = 16

self.n_actions = 4

self.start_state = 0

self._precompute_transitions()

def _precompute_transitions(self):

"""Pré-calcula todas as transições"""

self.transitions = {}

for state in range(self.n_states):

linha, coluna = state // 4, state % 4

self.transitions[state] = {}

for acao in range(self.n_actions):

if self.is_slippery:

acoes_possiveis = [

acao,

{0: 2, 1: 3, 2: 1, 3: 0}[acao],

{0: 3, 1: 2, 2: 0, 3: 1}[acao]

]

probs = [0.33, 0.33, 0.34]

else:

acoes_possiveis = [acao]

probs = [1.0]

resultados = []

for acao_real, prob in zip(acoes_possiveis, probs):

nl, nc = linha, coluna

if acao_real == 0: nl = max(0, linha - 1)

elif acao_real == 1: nl = min(3, linha + 1)

elif acao_real == 2: nc = max(0, coluna - 1)

elif acao_real == 3: nc = min(3, coluna + 1)

novo_state = nl * 4 + nc

tipo = self.mapa[nl, nc]

if tipo == 2:

recompensa = 1.0

done = True

elif tipo == 1:

recompensa = 0.0

done = True

else:

recompensa = 0.0

done = False

resultados.append((novo_state, recompensa, done, prob))

self.transitions[state][acao] = resultados

def reset(self):

return self.start_state

def step_fast(self, state, acao):

resultados = self.transitions[state][acao]

r = random.random()

cum_prob = 0

for novo_state, recompensa, done, prob in resultados:

cum_prob += prob

if r <= cum_prob:

return novo_state, recompensa, done

return resultados[-1][:3]

# ============================================

# AGENTE Q-LEARNING

# ============================================

class AgenteQLearning:

def __init__(self, n_states, n_actions, alpha=0.8, gamma=0.95, epsilon=0.3):

self.Q = np.zeros((n_states, n_actions))

self.alpha = alpha

self.gamma = gamma

self.epsilon = epsilon

self.epsilon_min = 0.01

self.epsilon_decay = 0.995

def escolher_acao(self, state):

if np.random.rand() < self.epsilon:

return np.random.randint(4)

return np.argmax(self.Q[state])

def atualizar(self, state, acao, reward, next_state, done):

if done:

target = reward

else:

target = reward + self.gamma * np.max(self.Q[next_state])

self.Q[state, acao] += self.alpha * (target - self.Q[state, acao])

def decair_epsilon(self):

self.epsilon = max(self.epsilon_min, self.epsilon * self.epsilon_decay)

# ============================================

# FUNÇÃO PARA TESTAR AGENTE (MAIS RÁPIDA)

# ============================================

def testar_agente_rapido(Q, num_testes=100):

"""Testa agente rapidamente sem criar muitos objetos"""

vitorias = 0

for _ in range(num_testes):

state = 0 # estado inicial

feito = False

passos = 0

# Usa o ambiente global para evitar recriação

while not feito and passos < 50:

acao = np.argmax(Q[state])

# Simula transição diretamente (sem criar novo ambiente)

linha, coluna = state // 4, state % 4

# Aplica escorregamento

r = random.random()

if r < 0.33:

acao_real = acao

elif r < 0.66:

acao_real = {0: 2, 1: 3, 2: 1, 3: 0}[acao]

else:

acao_real = {0: 3, 1: 2, 2: 0, 3: 1}[acao]

# Calcula novo estado

nl, nc = linha, coluna

if acao_real == 0: nl = max(0, linha - 1)

elif acao_real == 1: nl = min(3, linha + 1)

elif acao_real == 2: nc = max(0, coluna - 1)

elif acao_real == 3: nc = min(3, coluna + 1)

novo_state = nl * 4 + nc

# Verifica recompensa

tipo = env_global.mapa[nl, nc] if 'env_global' in globals() else 0

# Simplificado: usa mapa fixo

if nl == 3 and nc == 2: # objetivo

vitorias += 1

break

elif (nl == 1 and nc == 1) or (nl == 1 and nc == 3) or (nl == 2 and nc == 1) or (nl == 3 and nc == 3):

break # buraco

state = novo_state

passos += 1

return vitorias / num_testes

# ============================================

# CRIA AMBIENTE GLOBAL PARA TESTES

# ============================================

env_global = FrozenLakeAmbiente(is_slippery=True)

# ============================================

# TREINAMENTO DOS 4 AGENTES

# ============================================

print("\n" + "=" * 70)

print("ETAPA 1: TREINANDO 4 AGENTES")

print("=" * 70)

num_episodios = 1500

num_agentes = 4

print(f"\n📊 Configuração:")

print(f" - Agentes: {num_agentes}")

print(f" - Episódios por agente: {num_episodios}")

resultados = []

for agente_id in range(num_agentes):

print(f"\n🤖 Treinando Agente {agente_id + 1}/{num_agentes}")

env = FrozenLakeAmbiente(is_slippery=True)

agente = AgenteQLearning(16, 4)

vitorias = np.zeros(num_episodios)

with tqdm(total=num_episodios, desc=f"Agente {agente_id + 1}",

unit="ep", ncols=80, mininterval=0.05) as pbar:

for ep in range(num_episodios):

state = env.reset()

feito = False

venceu = False

num_passos = 0

while not feito and num_passos < 100:

acao = agente.escolher_acao(state)

next_state, reward, feito = env.step_fast(state, acao)

agente.atualizar(state, acao, reward, next_state, feito)

state = next_state

num_passos += 1

if reward > 0:

venceu = True

vitorias[ep] = 1 if venceu else 0

agente.decair_epsilon()

# Atualiza barra a cada 5 episódios

if ep % 5 == 0:

taxa_recente = np.mean(vitorias[max(0, ep-99):ep+1]) * 100

pbar.set_postfix({'Taxa': f'{taxa_recente:.1f}%'}, refresh=True)

pbar.update(5)

elif ep == 0:

pbar.update(1)

resultados.append({

'id': agente_id,

'Q': agente.Q.copy(),

'vitorias': vitorias

})

print("\n✅ Treinamento concluído!")

# ============================================

# ETAPA 2: TESTANDO CADA AGENTE (VERSÃO CORRIGIDA)

# ============================================

print("\n" + "=" * 70)

print("ETAPA 2: TESTANDO CADA AGENTE")

print("=" * 70)

print("\n🎮 Avaliando desempenho individual...")

print(" (Isso pode levar alguns segundos)\n")

taxas_agentes = []

# Testa cada agente individualmente com barra de progresso

for idx, r in enumerate(resultados):

print(f"\n📊 Testando Agente {idx + 1}...")

num_testes = 200

vitorias = 0

# Barra de progresso para o teste deste agente

with tqdm(total=num_testes, desc=f"Agente {idx + 1}",

unit="teste", ncols=80, mininterval=0.01) as pbar:

for teste_num in range(num_testes):

state = 0

feito = False

passos = 0

while not feito and passos < 50:

acao = np.argmax(r['Q'][state])

# Simula passo sem criar novo ambiente

linha, coluna = state // 4, state % 4

# Escorregamento

rand = random.random()

if rand < 0.33:

acao_real = acao

elif rand < 0.66:

acao_real = {0: 2, 1: 3, 2: 1, 3: 0}[acao]

else:

acao_real = {0: 3, 1: 2, 2: 0, 3: 1}[acao]

# Move

nl, nc = linha, coluna

if acao_real == 0: nl = max(0, linha - 1)

elif acao_real == 1: nl = min(3, linha + 1)

elif acao_real == 2: nc = max(0, coluna - 1)

elif acao_real == 3: nc = min(3, coluna + 1)

novo_state = nl * 4 + nc

# Verifica resultado

if nl == 3 and nc == 2: # objetivo

vitorias += 1

break

elif (nl == 1 and nc == 1) or (nl == 1 and nc == 3) or \

(nl == 2 and nc == 1) or (nl == 3 and nc == 3): # buraco

break

state = novo_state

passos += 1

pbar.update(1)

# Mostra taxa atual a cada 50 testes

if (teste_num + 1) % 50 == 0:

taxa_atual = (vitorias / (teste_num + 1)) * 100

pbar.set_postfix({'Taxa': f'{taxa_atual:.1f}%'}, refresh=True)

taxa = (vitorias / num_testes) * 100

taxas_agentes.append(taxa)

print(f" ✅ Agente {idx + 1}: {taxa:.1f}% de sucesso")

# Mostra resumo

print("\n" + "-" * 50)

print("📊 RESUMO DOS TESTES:")

for idx, taxa in enumerate(taxas_agentes):

print(f" Agente {idx + 1}: {taxa:.1f}%")

print("-" * 50)

melhor_agente_idx = np.argmax(taxas_agentes)

print(f"\n🏆 Melhor agente: Agente {melhor_agente_idx + 1} com {taxas_agentes[melhor_agente_idx]:.1f}%")

# ============================================

# ETAPA 3: COMBINANDO AGENTES

# ============================================

print("\n" + "=" * 70)

print("ETAPA 3: COMBINANDO OS 4 AGENTES")

print("=" * 70)

print("\n🔄 Criando agente combinado...")

Q_combinado = np.zeros((16, 4))

with tqdm(total=16, desc="Combinando estados", unit="estado", ncols=80, mininterval=0.05) as pbar:

for state in range(16):

# Encontra melhor agente para este estado

melhores_valores = [np.max(r['Q'][state]) for r in resultados]

melhor_agente = np.argmax(melhores_valores)

Q_combinado[state] = resultados[melhor_agente]['Q'][state].copy()

pbar.update(1)

print("\n✅ Combinação concluída!")

# ============================================

# ETAPA 4: TESTANDO AGENTE COMBINADO

# ============================================

print("\n" + "=" * 70)

print("ETAPA 4: TESTANDO AGENTE COMBINADO")

print("=" * 70)

num_testes_combinado = 500

vitorias_combinado = 0

print(f"\n🎮 Testando em {num_testes_combinado} partidas...")

with tqdm(total=num_testes_combinado, desc="Testando combinado",

unit="partida", ncols=80, mininterval=0.01) as pbar:

for teste_num in range(num_testes_combinado):

state = 0

feito = False

passos = 0

while not feito and passos < 50:

acao = np.argmax(Q_combinado[state])

# Simula passo

linha, coluna = state // 4, state % 4

rand = random.random()

if rand < 0.33:

acao_real = acao

elif rand < 0.66:

acao_real = {0: 2, 1: 3, 2: 1, 3: 0}[acao]

else:

acao_real = {0: 3, 1: 2, 2: 0, 3: 1}[acao]

nl, nc = linha, coluna

if acao_real == 0: nl = max(0, linha - 1)

elif acao_real == 1: nl = min(3, linha + 1)

elif acao_real == 2: nc = max(0, coluna - 1)

elif acao_real == 3: nc = min(3, coluna + 1)

if nl == 3 and nc == 2: # objetivo

vitorias_combinado += 1

break

elif (nl == 1 and nc == 1) or (nl == 1 and nc == 3) or \

(nl == 2 and nc == 1) or (nl == 3 and nc == 3):

break

state = nl * 4 + nc

passos += 1

pbar.update(1)

# Mostra taxa atual frequentemente

if (teste_num + 1) % 25 == 0:

taxa_atual = (vitorias_combinado / (teste_num + 1)) * 100

pbar.set_postfix({'Taxa': f'{taxa_atual:.1f}%'}, refresh=True)

taxa_combinado = (vitorias_combinado / num_testes_combinado) * 100

print(f"\n🏆 Agente combinado: {taxa_combinado:.1f}% de sucesso")

# ============================================

# VISUALIZAÇÃO

# ============================================

print("\n" + "=" * 70)

print("ETAPA 5: GERANDO GRÁFICOS")

print("=" * 70)

plt.figure(figsize=(15, 5))

# Gráfico 1: Evolução dos agentes

plt.subplot(1, 3, 1)

for r in resultados:

media = np.convolve(r['vitorias'], np.ones(100)/100, mode='valid')

plt.plot(range(99, num_episodios), media, alpha=0.6, linewidth=1)

plt.xlabel('Episódio')

plt.ylabel('Taxa de vitória')

plt.title('Evolução do Aprendizado')

plt.ylim(0, 1)

plt.grid(True, alpha=0.3)

# Gráfico 2: Função Valor

plt.subplot(1, 3, 2)

V = np.max(Q_combinado, axis=1).reshape(4, 4)

im = plt.imshow(V, cmap='RdYlGn', interpolation='nearest', vmin=0, vmax=1)

plt.colorbar(im, label='Valor')

for i in range(4):

for j in range(4):

if env_global.mapa[i, j] == 1:

plt.text(j, i, '💀', ha='center', va='center', fontsize=16)

elif env_global.mapa[i, j] == 2:

plt.text(j, i, '🎯', ha='center', va='center', fontsize=16)

else:

plt.text(j, i, f'{V[i,j]:.2f}', ha='center', va='center', fontsize=9)

plt.title('Função Valor V(s)')

plt.xlabel('Coluna')

plt.ylabel('Linha')

# Gráfico 3: Política

plt.subplot(1, 3, 3)

setas = ['↑', '↓', '←', '→']

for i in range(4):

for j in range(4):

state = i * 4 + j

tipo = env_global.mapa[i, j]

if tipo == 1:

plt.text(j, i, '💀', ha='center', va='center', fontsize=20, color='red')

elif tipo == 2:

plt.text(j, i, '🏆', ha='center', va='center', fontsize=20)

else:

melhor_acao = np.argmax(Q_combinado[state])

plt.text(j, i, setas[melhor_acao], ha='center', va='center', fontsize=22)

plt.xlim(-0.5, 3.5)

plt.ylim(3.5, -0.5)

plt.title('Política Ótima')

plt.grid(True, alpha=0.3)

plt.tight_layout()

plt.show()

# ============================================

# RELATÓRIO FINAL

# ============================================

print("\n" + "=" * 70)

print("RELATÓRIO FINAL")

print("=" * 70)

print(f"""

✅ RESULTADOS:

- Melhor agente individual: {max(taxas_agentes):.1f}%

- Agente combinado: {taxa_combinado:.1f}%

- Melhoria: {taxa_combinado - max(taxas_agentes):.1f}%

📋 MAPA DO LAGO (com política aprendida):

""")

print(" Col0 Col1 Col2 Col3")

for i in range(4):

linha = f"Lin{i}: "

for j in range(4):

state = i * 4 + j

tipo = env_global.mapa[i, j]

if tipo == 1:

linha += " 💀 "

elif tipo == 2:

linha += " 🏆 "

else:

melhor = np.argmax(Q_combinado[state])

setas = ['↑', '↓', '←', '→']

linha += f" {setas[melhor]} "

print(linha)

print("\n" + "=" * 70)

print("✅ PROGRAMA CONCLUÍDO!")

print("=" * 70)

O código treina uma tabela Q no FrozenLake. O agente aprende por tentativa e erro. A função valor V(s) é derivada de Q(s,a). O primeiro gráfico mostra a melhora das recompensas. O segundo gráfico exibe o valor de cada estado. Regiões mais claras são mais valiosas. O agente aprende a evitar buracos (valor baixo) e ir para o objetivo (valor alto). Este exemplo ilustra perfeitamente funções de valor e ação-valor.

Indice

Definição formal de V(s) e Q(s,a)

Arquiteturas e hiperparâmetros comuns

Exemplo clássico: FrozenLake com Q-learning

Deixe um comentário Cancelar resposta