4 – Por Reforco
4.1 – Fundamentos Por Reforco
4.1.5 – Modelo do Ambiente – Transicao e Recompensa

LEGENDA

Principal

Ramo

Metodo

Problemas

Modelo

Arquitetura

Modelo do ambiente: transição e recompensa

O modelo do ambiente é o coração do aprendizado por reforço. Ele define como o mundo reage às ações do agente. Primeiramente, a função de transição prevê o próximo estado. Em segundo lugar, a função de recompensa avalia o resultado imediato. Sem esse modelo, o agente age no escuro. Por conseguinte, modelar o ambiente é essencial para planejamento eficiente.

Função de transição de estados

A transição descreve a dinâmica do ambiente. Ela é denotada por \( p(s’, r | s, a) \). Essa fórmula lê-se “probabilidade de ir para s’ com recompensa r”. Frequentemente, usamos a forma determinística \( s’ = T(s, a) \). Ambientes reais, contudo, são estocásticos. Por exemplo, um robô pode escorregar. A transição é aprendida ou fornecida antecipadamente. Esse conhecimento é usado para simular o futuro.

A função de transição é uma distribuição de probabilidade. Portanto, a soma sobre todos os s’ e r é igual a 1. Matematicamente: \( \sum_{s’} \sum_{r} p(s’, r | s, a) = 1 \). Essa propriedade é conservada em ambientes bem definidos. Modelos tabulares armazenam essas probabilidades. Modelos neurais, por outro lado, as aproximam continuamente.

Função de recompensa imediata

A recompensa é um escalar que guia o comportamento. Ela pode ser determinística ou estocástica. A recompensa esperada é calculada como \( r(s,a) = \mathbb{E}[R | s,a] = \sum_r r \sum_{s’} p(s’, r | s, a) \). Em problemas simples, a recompensa é dada diretamente. Por exemplo, +1 por vencer e 0 por perder. Projetar uma boa recompensa é uma arte. Recompensas mal definidas causam comportamentos indesejados.

Hiperparâmetros importantes incluem o fator de desconto γ. Ele pondera recompensas futuras. Um modelo também tem parâmetros de confiança. Ambientes simulados usam um horizonte de planejamento. Modelos aprendidos têm uma taxa de atualização α. A arquitetura comum é uma rede neural. Ela recebe estado e ação como entrada. Suas saídas são o próximo estado e a recompensa.

Exemplo clássico: o mundo da grade 4×4

Imagine uma grade 4×4 com um tesouro escondido. O agente começa no canto superior esquerdo. O tesouro está no canto inferior direito. Cada movimento custa -0.1 (recompensa negativa). Encontrar o tesouro dá +10. Paredes bloqueiam algumas células (transição inválida). O ambiente é determinístico: a ação sempre funciona. O objetivo é aprender o caminho ótimo. O código abaixo modela explicitamente transição e recompensa.

import numpy as np
import matplotlib.pyplot as plt

# ============================================
# MODELO DO AMBIENTE: transição e recompensa
# ============================================

class ModeloAmbiente:
    """Mundo 4x4 com transições e recompensas definidas"""
    
    def __init__(self):
        # Grid 4x4: 0=caminho, 1=parede, 2=tesouro
        self.grid = np.array([
            [0, 0, 0, 0],
            [0, 1, 0, 0],  # parede na posição (1,1)
            [0, 1, 0, 0],  # parede na posição (2,1)
            [0, 0, 2, 0]
        ])
        self.n_estados = 16
        self.n_acoes = 4  # 0=cima, 1=baixo, 2=esq, 3=dir
        self.inicio = 0
        self.tesouro = 14  # posição (3,2)
        
    def transicao(self, estado, acao):
        """Retorna (próximo_estado, recompensa, terminou)"""
        linha = estado // 4
        coluna = estado % 4
        
        # Calcula movimento
        if acao == 0:  # cima
            nova_linha = max(0, linha - 1)
            nova_coluna = coluna
        elif acao == 1:  # baixo
            nova_linha = min(3, linha + 1)
            nova_coluna = coluna
        elif acao == 2:  # esquerda
            nova_linha = linha
            nova_coluna = max(0, coluna - 1)
        else:  # direita
            nova_linha = linha
            nova_coluna = min(3, coluna + 1)
        
        # Verifica parede
        if self.grid[nova_linha, nova_coluna] == 1:
            return estado, -0.5, False  # bateu na parede
        
        novo_estado = nova_linha * 4 + nova_coluna
        
        # Verifica tesouro
        if self.grid[nova_linha, nova_coluna] == 2:
            return novo_estado, 10.0, True
        
        # Movimento normal
        return novo_estado, -0.1, False
    
    def todas_transicoes(self):
        """Pré-computa todas as transições (útil para planejamento)"""
        T = np.zeros((self.n_estados, self.n_acoes, self.n_estados))
        R = np.zeros((self.n_estados, self.n_acoes))
        
        for s in range(self.n_estados):
            for a in range(self.n_acoes):
                s_next, r, done = self.transicao(s, a)
                T[s, a, s_next] = 1.0  # determinístico
                R[s, a] = r
        return T, R

# ============================================
# PLANEJADOR USANDO O MODELO (Iteração de Valor)
# ============================================

def iteracao_valor(modelo, gamma=0.95, theta=1e-6, max_iter=1000):
    """Encontra a política ótima usando o modelo do ambiente"""
    V = np.zeros(modelo.n_estados)
    politica = np.zeros(modelo.n_estados, dtype=int)
    
    print("Iteração de Valor - Planejando com o modelo...")
    for i in range(max_iter):
        delta = 0
        V_antigo = V.copy()
        
        for s in range(modelo.n_estados):
            if s == modelo.tesouro:
                continue
                
            # Calcula valor para cada ação
            valores_acoes = []
            for a in range(modelo.n_acoes):
                s_next, r, _ = modelo.transicao(s, a)
                valor = r + gamma * V_antigo[s_next]
                valores_acoes.append(valor)
            
            V[s] = max(valores_acoes)
            delta = max(delta, abs(V[s] - V_antigo[s]))
        
        if delta < theta:
            print(f"Convergência após {i+1} iterações")
            break
    
    # Extrai política ótima
    for s in range(modelo.n_estados):
        if s == modelo.tesouro:
            politica[s] = -1
            continue
        
        valores = []
        for a in range(modelo.n_acoes):
            s_next, r, _ = modelo.transicao(s, a)
            valores.append(r + gamma * V[s_next])
        politica[s] = np.argmax(valores)
    
    return V, politica

# ============================================
# SIMULAÇÃO USANDO O MODELO
# ============================================

print("=" * 60)
print("MODELO DO AMBIENTE: Transição e Recompensa")
print("=" * 60)

# Cria o modelo
modelo = ModeloAmbiente()
print("\n📊 Modelo do mundo 4x4 criado!")
print("   - Estados: 16 (grid 4x4)")
print("   - Ações: 4 (cima, baixo, esq, dir)")
print("   - Recompensas: -0.1 por passo, -0.5 por parede, +10 pelo tesouro")

# Mostra o mapa
print("\n🗺️ MAPA DO AMBIENTE:")
print("    Col0 Col1 Col2 Col3")
for i in range(4):
    linha = f"Lin{i}: "
    for j in range(4):
        if modelo.grid[i, j] == 1:
            linha += "  ██  "
        elif modelo.grid[i, j] == 2:
            linha += "  💰  "
        else:
            linha += "  ··  "
    print(linha)
print("Legenda: ·· = caminho | ██ = parede | 💰 = tesouro (+10)")

# Planejamento com o modelo
print("\n" + "=" * 60)
print("PLANEJAMENTO USANDO O MODELO")
print("=" * 60)

V_otimo, politica_otima = iteracao_valor(modelo)

# Mostra a função valor
print("\n📈 Função Valor V*(s) para cada estado:")
for i in range(4):
    linha = ""
    for j in range(4):
        s = i * 4 + j
        if modelo.grid[i, j] == 1:
            linha += "   ██   "
        elif s == modelo.tesouro:
            linha += "  💰💰  "
        else:
            linha += f" {V_otimo[s]:5.1f} "
    print(linha)

# Mostra a política ótima
print("\n🎯 Política Ótima (melhor ação em cada estado):")
setas = ['↑', '↓', '←', '→']
for i in range(4):
    linha = ""
    for j in range(4):
        s = i * 4 + j
        if modelo.grid[i, j] == 1:
            linha += "  ██  "
        elif s == modelo.tesouro:
            linha += "  💰  "
        else:
            linha += f"  {setas[politica_otima[s]]}  "
    print(linha)

# ============================================
# SIMULAÇÃO DE UMA TRAJETÓRIA
# ============================================

print("\n" + "=" * 60)
print("SIMULAÇÃO DE UMA TRAJETÓRIA")
print("=" * 60)

estado = modelo.inicio
trajetoria = [estado]
recompensa_total = 0
passos = 0

print(f"\nIniciando no estado {estado} (posição 0,0)")

while estado != modelo.tesouro and passos < 20:
    acao = politica_otima[estado]
    linha_atual = estado // 4
    coluna_atual = estado % 4
    
    prox_estado, recompensa, terminou = modelo.transicao(estado, acao)
    
    print(f"Passo {passos+1}: pos({linha_atual},{coluna_atual}) → {setas[acao]} → {prox_estado//4},{prox_estado%4} | recompensa: {recompensa:.1f}")
    
    trajetoria.append(prox_estado)
    recompensa_total += recompensa
    estado = prox_estado
    passos += 1
    
    if terminou:
        print(f"\n🎉 TESOURO ENCONTRADO! Recompensa total: {recompensa_total:.1f}")
        break

# ============================================
# GRÁFICOS
# ============================================

print("\n" + "=" * 60)
print("GERANDO GRÁFICOS")
print("=" * 60)

plt.figure(figsize=(14, 5))

# Gráfico 1: Função Valor como mapa de calor
plt.subplot(1, 2, 1)
V_mapa = V_otimo.reshape(4, 4)
# Mascara para paredes
mask = modelo.grid == 1
V_mapa_masked = np.ma.masked_where(mask, V_mapa)

im = plt.imshow(V_mapa_masked, cmap='viridis', interpolation='nearest')
plt.colorbar(im, label='Valor V*(s)')
for i in range(4):
    for j in range(4):
        if modelo.grid[i, j] == 1:
            plt.text(j, i, '█', ha='center', va='center', fontsize=20, color='black')
        elif i*4+j == modelo.tesouro:
            plt.text(j, i, '💰', ha='center', va='center', fontsize=16)
        else:
            plt.text(j, i, f'{V_mapa[i, j]:.1f}', ha='center', va='center', 
                    fontsize=9, color='white' if V_mapa[i, j] > 5 else 'black')
plt.title('Função Valor V*(s) - Mapa de Calor\n(quanto mais amarelo, mais valioso)')
plt.xlabel('Coluna')
plt.ylabel('Linha')

# Gráfico 2: Política ótima visual
plt.subplot(1, 2, 2)
for i in range(4):
    for j in range(4):
        s = i * 4 + j
        if modelo.grid[i, j] == 1:
            plt.text(j, i, '██', ha='center', va='center', fontsize=20, color='gray')
        elif s == modelo.tesouro:
            plt.text(j, i, '💰', ha='center', va='center', fontsize=24)
        else:
            acao = politica_otima[s]
            plt.text(j, i, setas[acao], ha='center', va='center', fontsize=28)
plt.xlim(-0.5, 3.5)
plt.ylim(3.5, -0.5)
plt.title('Política Ótima Derivada do Modelo\n(setas indicam o melhor movimento)')
plt.xlabel('Coluna')
plt.ylabel('Linha')
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# ============================================
# EXPLICAÇÃO DOS CONCEITOS
# ============================================

print("\n" + "=" * 60)
print("ENTENDENDO O MODELO DO AMBIENTE")
print("=" * 60)

print("""
✅ O QUE FOI DEMONSTRADO:

1. FUNÇÃO DE TRANSIÇÃO T(s,a):
   - Define para onde o agente vai após cada ação
   - No exemplo: movimento determinístico (não há escorregamento)
   - Paredes bloqueiam a transição (agente permanece no lugar)

2. FUNÇÃO DE RECOMPENSA R(s,a):
   - Cada movimento custa -0.1 (incentiva caminho curto)
   - Bater na parede custa -0.5 (desincentiva)
   - Encontrar o tesouro dá +10 (objetivo principal)

3. USO DO MODELO PARA PLANEJAMENTO:
   - Iteração de Valor usa o modelo para calcular V*(s)
   - A política ótima é extraída das funções valor
   - Não é necessário interagir com o ambiente real

📊 FÓRMULAS MATEMÁTICAS UTILIZADAS:

• Equação de Bellman para V*:
  [latex] V^*(s) = \max_a \sum_{s',r} p(s',r|s,a) [r + \gamma V^*(s')] [/latex]

• No nosso caso determinístico, simplifica para:
  [latex] V^*(s) = \max_a [R(s,a) + \gamma V^*(T(s,a))] [/latex]

• Iteração de Valor atualiza iterativamente:
  [latex] V_{k+1}(s) = \max_a [R(s,a) + \gamma V_k(T(s,a))] [/latex]

🎯 PRINCIPAIS HIPERPARÂMETROS:

• γ (gamma) = 0.95 - Fator de desconto (95% de importância para futuro)
• θ (theta) = 1e-6 - Critério de convergência
• max_iter = 1000 - Limite de iterações

DIFERENÇA ENTRE MODELO E APRENDIZADO POR REFORÇO:

• MODELO-BASE (demonstrado): Ambiente é conhecido.
  O agente PLANEJA sem interagir. Usa equações de Bellman.

• LIVRE-MODELO (Q-learning): Ambiente é desconhecido.
  O agente APRENDE por tentativa e erro.
""")

print("\n" + "=" * 60)
print("CONCLUSÃO")
print("=" * 60)
print("""
O modelo do ambiente (transição + recompensa) é uma representação
matemática do mundo. Ele permite que o agente planeje o futuro
sem executar ações reais. Isso é útil em robótica, jogos e
controle de processos. Quando o modelo é conhecido, métodos
como Iteração de Valor encontram a política ótima de forma
eficiente e garantida.
""")

print("✅ PROGRAMA CONCLUÍDO!")

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151

152

153

154

155

156

157

158

159

160

161

162

163

164

165

166

167

168

169

170

171

172

173

174

175

176

177

178

179

180

181

182

183

184

185

186

187

188

189

190

191

192

193

194

195

196

197

198

199

200

201

202

203

204

205

206

207

208

209

210

211

212

213

214

215

216

217

218

219

220

221

222

223

224

225

226

227

228

229

230

231

232

233

234

235

236

237

238

239

240

241

242

243

244

245

246

247

248

249

250

251

252

253

254

255

256

257

258

259

260

261

262

263

264

265

266

267

268

269

270

271

272

273

274

275

276

277

278

279

280

281

282

283

284

285

286

287

288

289

290

291

292

293

294

295

296

297

298

299

300

301

302

303

304

305

306

307

308

309

310

311

312

313

314

315

316

317

318

319

320

321

322

323

324

325

326

327

328

329

330

331

import numpy as np

import matplotlib.pyplot as plt

# ============================================

# MODELO DO AMBIENTE: transição e recompensa

# ============================================

class ModeloAmbiente:

"""Mundo 4x4 com transições e recompensas definidas"""

def __init__(self):

# Grid 4x4: 0=caminho, 1=parede, 2=tesouro

self.grid = np.array([

[0, 0, 0, 0],

[0, 1, 0, 0], # parede na posição (1,1)

[0, 1, 0, 0], # parede na posição (2,1)

[0, 0, 2, 0]

])

self.n_estados = 16

self.n_acoes = 4 # 0=cima, 1=baixo, 2=esq, 3=dir

self.inicio = 0

self.tesouro = 14 # posição (3,2)

def transicao(self, estado, acao):

"""Retorna (próximo_estado, recompensa, terminou)"""

linha = estado // 4

coluna = estado % 4

# Calcula movimento

if acao == 0: # cima

nova_linha = max(0, linha - 1)

nova_coluna = coluna

elif acao == 1: # baixo

nova_linha = min(3, linha + 1)

nova_coluna = coluna

elif acao == 2: # esquerda

nova_linha = linha

nova_coluna = max(0, coluna - 1)

else: # direita

nova_linha = linha

nova_coluna = min(3, coluna + 1)

# Verifica parede

if self.grid[nova_linha, nova_coluna] == 1:

return estado, -0.5, False # bateu na parede

novo_estado = nova_linha * 4 + nova_coluna

# Verifica tesouro

if self.grid[nova_linha, nova_coluna] == 2:

return novo_estado, 10.0, True

# Movimento normal

return novo_estado, -0.1, False

def todas_transicoes(self):

"""Pré-computa todas as transições (útil para planejamento)"""

T = np.zeros((self.n_estados, self.n_acoes, self.n_estados))

R = np.zeros((self.n_estados, self.n_acoes))

for s in range(self.n_estados):

for a in range(self.n_acoes):

s_next, r, done = self.transicao(s, a)

T[s, a, s_next] = 1.0 # determinístico

R[s, a] = r

return T, R

# ============================================

# PLANEJADOR USANDO O MODELO (Iteração de Valor)

# ============================================

def iteracao_valor(modelo, gamma=0.95, theta=1e-6, max_iter=1000):

"""Encontra a política ótima usando o modelo do ambiente"""

V = np.zeros(modelo.n_estados)

politica = np.zeros(modelo.n_estados, dtype=int)

print("Iteração de Valor - Planejando com o modelo...")

for i in range(max_iter):

delta = 0

V_antigo = V.copy()

for s in range(modelo.n_estados):

if s == modelo.tesouro:

continue

# Calcula valor para cada ação

valores_acoes = []

for a in range(modelo.n_acoes):

s_next, r, _ = modelo.transicao(s, a)

valor = r + gamma * V_antigo[s_next]

valores_acoes.append(valor)

V[s] = max(valores_acoes)

delta = max(delta, abs(V[s] - V_antigo[s]))

if delta < theta:

print(f"Convergência após {i+1} iterações")

break

# Extrai política ótima

for s in range(modelo.n_estados):

if s == modelo.tesouro:

politica[s] = -1

continue

valores = []

for a in range(modelo.n_acoes):

s_next, r, _ = modelo.transicao(s, a)

valores.append(r + gamma * V[s_next])

politica[s] = np.argmax(valores)

return V, politica

# ============================================

# SIMULAÇÃO USANDO O MODELO

# ============================================

print("=" * 60)

print("MODELO DO AMBIENTE: Transição e Recompensa")

print("=" * 60)

# Cria o modelo

modelo = ModeloAmbiente()

print("\n📊 Modelo do mundo 4x4 criado!")

print(" - Estados: 16 (grid 4x4)")

print(" - Ações: 4 (cima, baixo, esq, dir)")

print(" - Recompensas: -0.1 por passo, -0.5 por parede, +10 pelo tesouro")

# Mostra o mapa

print("\n🗺️ MAPA DO AMBIENTE:")

print(" Col0 Col1 Col2 Col3")

for i in range(4):

linha = f"Lin{i}: "

for j in range(4):

if modelo.grid[i, j] == 1:

linha += " ██ "

elif modelo.grid[i, j] == 2:

linha += " 💰 "

else:

linha += " ·· "

print(linha)

print("Legenda: ·· = caminho | ██ = parede | 💰 = tesouro (+10)")

# Planejamento com o modelo

print("\n" + "=" * 60)

print("PLANEJAMENTO USANDO O MODELO")

print("=" * 60)

V_otimo, politica_otima = iteracao_valor(modelo)

# Mostra a função valor

print("\n📈 Função Valor V*(s) para cada estado:")

for i in range(4):

linha = ""

for j in range(4):

s = i * 4 + j

if modelo.grid[i, j] == 1:

linha += " ██ "

elif s == modelo.tesouro:

linha += " 💰💰 "

else:

linha += f" {V_otimo[s]:5.1f} "

print(linha)

# Mostra a política ótima

print("\n🎯 Política Ótima (melhor ação em cada estado):")

setas = ['↑', '↓', '←', '→']

for i in range(4):

linha = ""

for j in range(4):

s = i * 4 + j

if modelo.grid[i, j] == 1:

linha += " ██ "

elif s == modelo.tesouro:

linha += " 💰 "

else:

linha += f" {setas[politica_otima[s]]} "

print(linha)

# ============================================

# SIMULAÇÃO DE UMA TRAJETÓRIA

# ============================================

print("\n" + "=" * 60)

print("SIMULAÇÃO DE UMA TRAJETÓRIA")

print("=" * 60)

estado = modelo.inicio

trajetoria = [estado]

recompensa_total = 0

passos = 0

print(f"\nIniciando no estado {estado} (posição 0,0)")

while estado != modelo.tesouro and passos < 20:

acao = politica_otima[estado]

linha_atual = estado // 4

coluna_atual = estado % 4

prox_estado, recompensa, terminou = modelo.transicao(estado, acao)

print(f"Passo {passos+1}: pos({linha_atual},{coluna_atual}) → {setas[acao]} → {prox_estado//4},{prox_estado%4} | recompensa: {recompensa:.1f}")

trajetoria.append(prox_estado)

recompensa_total += recompensa

estado = prox_estado

passos += 1

if terminou:

print(f"\n🎉 TESOURO ENCONTRADO! Recompensa total: {recompensa_total:.1f}")

break

# ============================================

# GRÁFICOS

# ============================================

print("\n" + "=" * 60)

print("GERANDO GRÁFICOS")

print("=" * 60)

plt.figure(figsize=(14, 5))

# Gráfico 1: Função Valor como mapa de calor

plt.subplot(1, 2, 1)

V_mapa = V_otimo.reshape(4, 4)

# Mascara para paredes

mask = modelo.grid == 1

V_mapa_masked = np.ma.masked_where(mask, V_mapa)

im = plt.imshow(V_mapa_masked, cmap='viridis', interpolation='nearest')

plt.colorbar(im, label='Valor V*(s)')

for i in range(4):

for j in range(4):

if modelo.grid[i, j] == 1:

plt.text(j, i, '█', ha='center', va='center', fontsize=20, color='black')

elif i*4+j == modelo.tesouro:

plt.text(j, i, '💰', ha='center', va='center', fontsize=16)

else:

plt.text(j, i, f'{V_mapa[i, j]:.1f}', ha='center', va='center',

fontsize=9, color='white' if V_mapa[i, j] > 5 else 'black')

plt.title('Função Valor V*(s) - Mapa de Calor\n(quanto mais amarelo, mais valioso)')

plt.xlabel('Coluna')

plt.ylabel('Linha')

# Gráfico 2: Política ótima visual

plt.subplot(1, 2, 2)

for i in range(4):

for j in range(4):

s = i * 4 + j

if modelo.grid[i, j] == 1:

plt.text(j, i, '██', ha='center', va='center', fontsize=20, color='gray')

elif s == modelo.tesouro:

plt.text(j, i, '💰', ha='center', va='center', fontsize=24)

else:

acao = politica_otima[s]

plt.text(j, i, setas[acao], ha='center', va='center', fontsize=28)

plt.xlim(-0.5, 3.5)

plt.ylim(3.5, -0.5)

plt.title('Política Ótima Derivada do Modelo\n(setas indicam o melhor movimento)')

plt.xlabel('Coluna')

plt.ylabel('Linha')

plt.grid(True, alpha=0.3)

plt.tight_layout()

plt.show()

# ============================================

# EXPLICAÇÃO DOS CONCEITOS

# ============================================

print("\n" + "=" * 60)

print("ENTENDENDO O MODELO DO AMBIENTE")

print("=" * 60)

print("""

✅ O QUE FOI DEMONSTRADO:

1. FUNÇÃO DE TRANSIÇÃO T(s,a):

- Define para onde o agente vai após cada ação

- No exemplo: movimento determinístico (não há escorregamento)

- Paredes bloqueiam a transição (agente permanece no lugar)

2. FUNÇÃO DE RECOMPENSA R(s,a):

- Cada movimento custa -0.1 (incentiva caminho curto)

- Bater na parede custa -0.5 (desincentiva)

- Encontrar o tesouro dá +10 (objetivo principal)

3. USO DO MODELO PARA PLANEJAMENTO:

- Iteração de Valor usa o modelo para calcular V*(s)

- A política ótima é extraída das funções valor

- Não é necessário interagir com o ambiente real

📊 FÓRMULAS MATEMÁTICAS UTILIZADAS:

• Equação de Bellman para V*:

[latex] V^*(s) = \max_a \sum_{s',r} p(s',r|s,a) [r + \gamma V^*(s')] [/latex]

• No nosso caso determinístico, simplifica para:

[latex] V^*(s) = \max_a [R(s,a) + \gamma V^*(T(s,a))] [/latex]

• Iteração de Valor atualiza iterativamente:

[latex] V_{k+1}(s) = \max_a [R(s,a) + \gamma V_k(T(s,a))] [/latex]

🎯 PRINCIPAIS HIPERPARÂMETROS:

• γ (gamma) = 0.95 - Fator de desconto (95% de importância para futuro)

• θ (theta) = 1e-6 - Critério de convergência

• max_iter = 1000 - Limite de iterações

DIFERENÇA ENTRE MODELO E APRENDIZADO POR REFORÇO:

• MODELO-BASE (demonstrado): Ambiente é conhecido.

O agente PLANEJA sem interagir. Usa equações de Bellman.

• LIVRE-MODELO (Q-learning): Ambiente é desconhecido.

O agente APRENDE por tentativa e erro.

""")

print("\n" + "=" * 60)

print("CONCLUSÃO")

print("=" * 60)

print("""

O modelo do ambiente (transição + recompensa) é uma representação

matemática do mundo. Ele permite que o agente planeje o futuro

sem executar ações reais. Isso é útil em robótica, jogos e

controle de processos. Quando o modelo é conhecido, métodos

como Iteração de Valor encontram a política ótima de forma

eficiente e garantida.

""")

print("✅ PROGRAMA CONCLUÍDO!")

Métodos Baseados em Valor

aprendendo a função valor primeiro

q-learning: o algoritmo fundamental

deep q-networks (dqn)

vantagens e limitações

Modelo do Ambiente – Transicao e Recompensa

Modelo do ambiente: transição e recompensa

Função de transição de estados

Função de recompensa imediata

Exemplo clássico: o mundo da grade 4×4