Modelo do Ambiente – Transicao e Recompensa

23/05/202623/03/2026 Por antonino

Modelo do ambiente: transição e recompensa

O modelo do ambiente é o coração do aprendizado por reforço. Ele define como o mundo reage às ações do agente. Primeiramente, a função de transição prevê o próximo estado. Em segundo lugar, a função de recompensa avalia o resultado imediato. Sem esse modelo, o agente age no escuro. Por conseguinte, modelar o ambiente é essencial para planejamento eficiente.

Função de transição de estados

A transição descreve a dinâmica do ambiente. Ela é denotada por \( p(s’, r | s, a) \). Essa fórmula lê-se “probabilidade de ir para s’ com recompensa r”. Frequentemente, usamos a forma determinística \( s’ = T(s, a) \). Ambientes reais, contudo, são estocásticos. Por exemplo, um robô pode escorregar. A transição é aprendida ou fornecida antecipadamente. Esse conhecimento é usado para simular o futuro.

A função de transição é uma distribuição de probabilidade. Portanto, a soma sobre todos os s’ e r é igual a 1. Matematicamente: \( \sum_{s’} \sum_{r} p(s’, r | s, a) = 1 \). Essa propriedade é conservada em ambientes bem definidos. Modelos tabulares armazenam essas probabilidades. Modelos neurais, por outro lado, as aproximam continuamente.

Função de recompensa imediata

A recompensa é um escalar que guia o comportamento. Ela pode ser determinística ou estocástica. A recompensa esperada é calculada como \( r(s,a) = \mathbb{E}[R | s,a] = \sum_r r \sum_{s’} p(s’, r | s, a) \). Em problemas simples, a recompensa é dada diretamente. Por exemplo, +1 por vencer e 0 por perder. Projetar uma boa recompensa é uma arte. Recompensas mal definidas causam comportamentos indesejados.

Hiperparâmetros importantes incluem o fator de desconto γ. Ele pondera recompensas futuras. Um modelo também tem parâmetros de confiança. Ambientes simulados usam um horizonte de planejamento. Modelos aprendidos têm uma taxa de atualização α. A arquitetura comum é uma rede neural. Ela recebe estado e ação como entrada. Suas saídas são o próximo estado e a recompensa.

Exemplo clássico: o mundo da grade 4×4

Imagine uma grade 4×4 com um tesouro escondido. O agente começa no canto superior esquerdo. O tesouro está no canto inferior direito. Cada movimento custa -0.1 (recompensa negativa). Encontrar o tesouro dá +10. Paredes bloqueiam algumas células (transição inválida). O ambiente é determinístico: a ação sempre funciona. O objetivo é aprender o caminho ótimo. O código abaixo modela explicitamente transição e recompensa.

import numpy as np
import matplotlib.pyplot as plt

# ============================================
# MODELO DO AMBIENTE: transição e recompensa
# ============================================

class ModeloAmbiente:
    """Mundo 4x4 com transições e recompensas definidas"""
    
    def __init__(self):
        # Grid 4x4: 0=caminho, 1=parede, 2=tesouro
        self.grid = np.array([
            [0, 0, 0, 0],
            [0, 1, 0, 0],  # parede na posição (1,1)
            [0, 1, 0, 0],  # parede na posição (2,1)
            [0, 0, 2, 0]
        ])
        self.n_estados = 16
        self.n_acoes = 4  # 0=cima, 1=baixo, 2=esq, 3=dir
        self.inicio = 0
        self.tesouro = 14  # posição (3,2)
        
    def transicao(self, estado, acao):
        """Retorna (próximo_estado, recompensa, terminou)"""
        linha = estado // 4
        coluna = estado % 4
        
        # Calcula movimento
        if acao == 0:  # cima
            nova_linha = max(0, linha - 1)
            nova_coluna = coluna
        elif acao == 1:  # baixo
            nova_linha = min(3, linha + 1)
            nova_coluna = coluna
        elif acao == 2:  # esquerda
            nova_linha = linha
            nova_coluna = max(0, coluna - 1)
        else:  # direita
            nova_linha = linha
            nova_coluna = min(3, coluna + 1)
        
        # Verifica parede
        if self.grid[nova_linha, nova_coluna] == 1:
            return estado, -0.5, False  # bateu na parede
        
        novo_estado = nova_linha * 4 + nova_coluna
        
        # Verifica tesouro
        if self.grid[nova_linha, nova_coluna] == 2:
            return novo_estado, 10.0, True
        
        # Movimento normal
        return novo_estado, -0.1, False
    
    def todas_transicoes(self):
        """Pré-computa todas as transições (útil para planejamento)"""
        T = np.zeros((self.n_estados, self.n_acoes, self.n_estados))
        R = np.zeros((self.n_estados, self.n_acoes))
        
        for s in range(self.n_estados):
            for a in range(self.n_acoes):
                s_next, r, done = self.transicao(s, a)
                T[s, a, s_next] = 1.0  # determinístico
                R[s, a] = r
        return T, R

# ============================================
# PLANEJADOR USANDO O MODELO (Iteração de Valor)
# ============================================

def iteracao_valor(modelo, gamma=0.95, theta=1e-6, max_iter=1000):
    """Encontra a política ótima usando o modelo do ambiente"""
    V = np.zeros(modelo.n_estados)
    politica = np.zeros(modelo.n_estados, dtype=int)
    
    print("Iteração de Valor - Planejando com o modelo...")
    for i in range(max_iter):
        delta = 0
        V_antigo = V.copy()
        
        for s in range(modelo.n_estados):
            if s == modelo.tesouro:
                continue
                
            # Calcula valor para cada ação
            valores_acoes = []
            for a in range(modelo.n_acoes):
                s_next, r, _ = modelo.transicao(s, a)
                valor = r + gamma * V_antigo[s_next]
                valores_acoes.append(valor)
            
            V[s] = max(valores_acoes)
            delta = max(delta, abs(V[s] - V_antigo[s]))
        
        if delta < theta:
            print(f"Convergência após {i+1} iterações")
            break
    
    # Extrai política ótima
    for s in range(modelo.n_estados):
        if s == modelo.tesouro:
            politica[s] = -1
            continue
        
        valores = []
        for a in range(modelo.n_acoes):
            s_next, r, _ = modelo.transicao(s, a)
            valores.append(r + gamma * V[s_next])
        politica[s] = np.argmax(valores)
    
    return V, politica

# ============================================
# SIMULAÇÃO USANDO O MODELO
# ============================================

print("=" * 60)
print("MODELO DO AMBIENTE: Transição e Recompensa")
print("=" * 60)

# Cria o modelo
modelo = ModeloAmbiente()
print("\n📊 Modelo do mundo 4x4 criado!")
print("   - Estados: 16 (grid 4x4)")
print("   - Ações: 4 (cima, baixo, esq, dir)")
print("   - Recompensas: -0.1 por passo, -0.5 por parede, +10 pelo tesouro")

# Mostra o mapa
print("\n🗺️ MAPA DO AMBIENTE:")
print("    Col0 Col1 Col2 Col3")
for i in range(4):
    linha = f"Lin{i}: "
    for j in range(4):
        if modelo.grid[i, j] == 1:
            linha += "  ██  "
        elif modelo.grid[i, j] == 2:
            linha += "  💰  "
        else:
            linha += "  ··  "
    print(linha)
print("Legenda: ·· = caminho | ██ = parede | 💰 = tesouro (+10)")

# Planejamento com o modelo
print("\n" + "=" * 60)
print("PLANEJAMENTO USANDO O MODELO")
print("=" * 60)

V_otimo, politica_otima = iteracao_valor(modelo)

# Mostra a função valor
print("\n📈 Função Valor V*(s) para cada estado:")
for i in range(4):
    linha = ""
    for j in range(4):
        s = i * 4 + j
        if modelo.grid[i, j] == 1:
            linha += "   ██   "
        elif s == modelo.tesouro:
            linha += "  💰💰  "
        else:
            linha += f" {V_otimo[s]:5.1f} "
    print(linha)

# Mostra a política ótima
print("\n🎯 Política Ótima (melhor ação em cada estado):")
setas = ['↑', '↓', '←', '→']
for i in range(4):
    linha = ""
    for j in range(4):
        s = i * 4 + j
        if modelo.grid[i, j] == 1:
            linha += "  ██  "
        elif s == modelo.tesouro:
            linha += "  💰  "
        else:
            linha += f"  {setas[politica_otima[s]]}  "
    print(linha)

# ============================================
# SIMULAÇÃO DE UMA TRAJETÓRIA
# ============================================

print("\n" + "=" * 60)
print("SIMULAÇÃO DE UMA TRAJETÓRIA")
print("=" * 60)

estado = modelo.inicio
trajetoria = [estado]
recompensa_total = 0
passos = 0

print(f"\nIniciando no estado {estado} (posição 0,0)")

while estado != modelo.tesouro and passos < 20:
    acao = politica_otima[estado]
    linha_atual = estado // 4
    coluna_atual = estado % 4
    
    prox_estado, recompensa, terminou = modelo.transicao(estado, acao)
    
    print(f"Passo {passos+1}: pos({linha_atual},{coluna_atual}) → {setas[acao]} → {prox_estado//4},{prox_estado%4} | recompensa: {recompensa:.1f}")
    
    trajetoria.append(prox_estado)
    recompensa_total += recompensa
    estado = prox_estado
    passos += 1
    
    if terminou:
        print(f"\n🎉 TESOURO ENCONTRADO! Recompensa total: {recompensa_total:.1f}")
        break

# ============================================
# GRÁFICOS
# ============================================

print("\n" + "=" * 60)
print("GERANDO GRÁFICOS")
print("=" * 60)

plt.figure(figsize=(14, 5))

# Gráfico 1: Função Valor como mapa de calor
plt.subplot(1, 2, 1)
V_mapa = V_otimo.reshape(4, 4)
# Mascara para paredes
mask = modelo.grid == 1
V_mapa_masked = np.ma.masked_where(mask, V_mapa)

im = plt.imshow(V_mapa_masked, cmap='viridis', interpolation='nearest')
plt.colorbar(im, label='Valor V*(s)')
for i in range(4):
    for j in range(4):
        if modelo.grid[i, j] == 1:
            plt.text(j, i, '█', ha='center', va='center', fontsize=20, color='black')
        elif i*4+j == modelo.tesouro:
            plt.text(j, i, '💰', ha='center', va='center', fontsize=16)
        else:
            plt.text(j, i, f'{V_mapa[i, j]:.1f}', ha='center', va='center', 
                    fontsize=9, color='white' if V_mapa[i, j] > 5 else 'black')
plt.title('Função Valor V*(s) - Mapa de Calor\n(quanto mais amarelo, mais valioso)')
plt.xlabel('Coluna')
plt.ylabel('Linha')

# Gráfico 2: Política ótima visual
plt.subplot(1, 2, 2)
for i in range(4):
    for j in range(4):
        s = i * 4 + j
        if modelo.grid[i, j] == 1:
            plt.text(j, i, '██', ha='center', va='center', fontsize=20, color='gray')
        elif s == modelo.tesouro:
            plt.text(j, i, '💰', ha='center', va='center', fontsize=24)
        else:
            acao = politica_otima[s]
            plt.text(j, i, setas[acao], ha='center', va='center', fontsize=28)
plt.xlim(-0.5, 3.5)
plt.ylim(3.5, -0.5)
plt.title('Política Ótima Derivada do Modelo\n(setas indicam o melhor movimento)')
plt.xlabel('Coluna')
plt.ylabel('Linha')
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# ============================================
# EXPLICAÇÃO DOS CONCEITOS
# ============================================

print("\n" + "=" * 60)
print("ENTENDENDO O MODELO DO AMBIENTE")
print("=" * 60)

print("""
✅ O QUE FOI DEMONSTRADO:

1. FUNÇÃO DE TRANSIÇÃO T(s,a):
   - Define para onde o agente vai após cada ação
   - No exemplo: movimento determinístico (não há escorregamento)
   - Paredes bloqueiam a transição (agente permanece no lugar)

2. FUNÇÃO DE RECOMPENSA R(s,a):
   - Cada movimento custa -0.1 (incentiva caminho curto)
   - Bater na parede custa -0.5 (desincentiva)
   - Encontrar o tesouro dá +10 (objetivo principal)

3. USO DO MODELO PARA PLANEJAMENTO:
   - Iteração de Valor usa o modelo para calcular V*(s)
   - A política ótima é extraída das funções valor
   - Não é necessário interagir com o ambiente real

📊 FÓRMULAS MATEMÁTICAS UTILIZADAS:

• Equação de Bellman para V*:
  [latex] V^*(s) = \max_a \sum_{s',r} p(s',r|s,a) [r + \gamma V^*(s')] [/latex]

• No nosso caso determinístico, simplifica para:
  [latex] V^*(s) = \max_a [R(s,a) + \gamma V^*(T(s,a))] [/latex]

• Iteração de Valor atualiza iterativamente:
  [latex] V_{k+1}(s) = \max_a [R(s,a) + \gamma V_k(T(s,a))] [/latex]

🎯 PRINCIPAIS HIPERPARÂMETROS:

• γ (gamma) = 0.95 - Fator de desconto (95% de importância para futuro)
• θ (theta) = 1e-6 - Critério de convergência
• max_iter = 1000 - Limite de iterações

DIFERENÇA ENTRE MODELO E APRENDIZADO POR REFORÇO:

• MODELO-BASE (demonstrado): Ambiente é conhecido.
  O agente PLANEJA sem interagir. Usa equações de Bellman.

• LIVRE-MODELO (Q-learning): Ambiente é desconhecido.
  O agente APRENDE por tentativa e erro.
""")

print("\n" + "=" * 60)
print("CONCLUSÃO")
print("=" * 60)
print("""
O modelo do ambiente (transição + recompensa) é uma representação
matemática do mundo. Ele permite que o agente planeje o futuro
sem executar ações reais. Isso é útil em robótica, jogos e
controle de processos. Quando o modelo é conhecido, métodos
como Iteração de Valor encontram a política ótima de forma
eficiente e garantida.
""")

print("✅ PROGRAMA CONCLUÍDO!")

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151

152

153

154

155

156

157

158

159

160

161

162

163

164

165

166

167

168

169

170

171

172

173

174

175

176

177

178

179

180

181

182

183

184

185

186

187

188

189

190

191

192

193

194

195

196

197

198

199

200

201

202

203

204

205

206

207

208

209

210

211

212

213

214

215

216

217

218

219

220

221

222

223

224

225

226

227

228

229

230

231

232

233

234

235

236

237

238

239

240

241

242

243

244

245

246

247

248

249

250

251

252

253

254

255

256

257

258

259

260

261

262

263

264

265

266

267

268

269

270

271

272

273

274

275

276

277

278

279

280

281

282

283

284

285

286

287

288

289

290

291

292

293

294

295

296

297

298

299

300

301

302

303

304

305

306

307

308

309

310

311

312

313

314

315

316

317

318

319

320

321

322

323

324

325

326

327

328

329

330

331

import numpy as np

import matplotlib.pyplot as plt

# ============================================

# MODELO DO AMBIENTE: transição e recompensa

# ============================================

class ModeloAmbiente:

"""Mundo 4x4 com transições e recompensas definidas"""

def __init__(self):

# Grid 4x4: 0=caminho, 1=parede, 2=tesouro

self.grid = np.array([

[0, 0, 0, 0],

[0, 1, 0, 0], # parede na posição (1,1)

[0, 1, 0, 0], # parede na posição (2,1)

[0, 0, 2, 0]

])

self.n_estados = 16

self.n_acoes = 4 # 0=cima, 1=baixo, 2=esq, 3=dir

self.inicio = 0

self.tesouro = 14 # posição (3,2)

def transicao(self, estado, acao):

"""Retorna (próximo_estado, recompensa, terminou)"""

linha = estado // 4

coluna = estado % 4

# Calcula movimento

if acao == 0: # cima

nova_linha = max(0, linha - 1)

nova_coluna = coluna

elif acao == 1: # baixo

nova_linha = min(3, linha + 1)

nova_coluna = coluna

elif acao == 2: # esquerda

nova_linha = linha

nova_coluna = max(0, coluna - 1)

else: # direita

nova_linha = linha

nova_coluna = min(3, coluna + 1)

# Verifica parede

if self.grid[nova_linha, nova_coluna] == 1:

return estado, -0.5, False # bateu na parede

novo_estado = nova_linha * 4 + nova_coluna

# Verifica tesouro

if self.grid[nova_linha, nova_coluna] == 2:

return novo_estado, 10.0, True

# Movimento normal

return novo_estado, -0.1, False

def todas_transicoes(self):

"""Pré-computa todas as transições (útil para planejamento)"""

T = np.zeros((self.n_estados, self.n_acoes, self.n_estados))

R = np.zeros((self.n_estados, self.n_acoes))

for s in range(self.n_estados):

for a in range(self.n_acoes):

s_next, r, done = self.transicao(s, a)

T[s, a, s_next] = 1.0 # determinístico

R[s, a] = r

return T, R

# ============================================

# PLANEJADOR USANDO O MODELO (Iteração de Valor)

# ============================================

def iteracao_valor(modelo, gamma=0.95, theta=1e-6, max_iter=1000):

"""Encontra a política ótima usando o modelo do ambiente"""

V = np.zeros(modelo.n_estados)

politica = np.zeros(modelo.n_estados, dtype=int)

print("Iteração de Valor - Planejando com o modelo...")

for i in range(max_iter):

delta = 0

V_antigo = V.copy()

for s in range(modelo.n_estados):

if s == modelo.tesouro:

continue

# Calcula valor para cada ação

valores_acoes = []

for a in range(modelo.n_acoes):

s_next, r, _ = modelo.transicao(s, a)

valor = r + gamma * V_antigo[s_next]

valores_acoes.append(valor)

V[s] = max(valores_acoes)

delta = max(delta, abs(V[s] - V_antigo[s]))

if delta < theta:

print(f"Convergência após {i+1} iterações")

break

# Extrai política ótima

for s in range(modelo.n_estados):

if s == modelo.tesouro:

politica[s] = -1

continue

valores = []

for a in range(modelo.n_acoes):

s_next, r, _ = modelo.transicao(s, a)

valores.append(r + gamma * V[s_next])

politica[s] = np.argmax(valores)

return V, politica

# ============================================

# SIMULAÇÃO USANDO O MODELO

# ============================================

print("=" * 60)

print("MODELO DO AMBIENTE: Transição e Recompensa")

print("=" * 60)

# Cria o modelo

modelo = ModeloAmbiente()

print("\n📊 Modelo do mundo 4x4 criado!")

print(" - Estados: 16 (grid 4x4)")

print(" - Ações: 4 (cima, baixo, esq, dir)")

print(" - Recompensas: -0.1 por passo, -0.5 por parede, +10 pelo tesouro")

# Mostra o mapa

print("\n🗺️ MAPA DO AMBIENTE:")

print(" Col0 Col1 Col2 Col3")

for i in range(4):

linha = f"Lin{i}: "

for j in range(4):

if modelo.grid[i, j] == 1:

linha += " ██ "

elif modelo.grid[i, j] == 2:

linha += " 💰 "

else:

linha += " ·· "

print(linha)

print("Legenda: ·· = caminho | ██ = parede | 💰 = tesouro (+10)")

# Planejamento com o modelo

print("\n" + "=" * 60)

print("PLANEJAMENTO USANDO O MODELO")

print("=" * 60)

V_otimo, politica_otima = iteracao_valor(modelo)

# Mostra a função valor

print("\n📈 Função Valor V*(s) para cada estado:")

for i in range(4):

linha = ""

for j in range(4):

s = i * 4 + j

if modelo.grid[i, j] == 1:

linha += " ██ "

elif s == modelo.tesouro:

linha += " 💰💰 "

else:

linha += f" {V_otimo[s]:5.1f} "

print(linha)

# Mostra a política ótima

print("\n🎯 Política Ótima (melhor ação em cada estado):")

setas = ['↑', '↓', '←', '→']

for i in range(4):

linha = ""

for j in range(4):

s = i * 4 + j

if modelo.grid[i, j] == 1:

linha += " ██ "

elif s == modelo.tesouro:

linha += " 💰 "

else:

linha += f" {setas[politica_otima[s]]} "

print(linha)

# ============================================

# SIMULAÇÃO DE UMA TRAJETÓRIA

# ============================================

print("\n" + "=" * 60)

print("SIMULAÇÃO DE UMA TRAJETÓRIA")

print("=" * 60)

estado = modelo.inicio

trajetoria = [estado]

recompensa_total = 0

passos = 0

print(f"\nIniciando no estado {estado} (posição 0,0)")

while estado != modelo.tesouro and passos < 20:

acao = politica_otima[estado]

linha_atual = estado // 4

coluna_atual = estado % 4

prox_estado, recompensa, terminou = modelo.transicao(estado, acao)

print(f"Passo {passos+1}: pos({linha_atual},{coluna_atual}) → {setas[acao]} → {prox_estado//4},{prox_estado%4} | recompensa: {recompensa:.1f}")

trajetoria.append(prox_estado)

recompensa_total += recompensa

estado = prox_estado

passos += 1

if terminou:

print(f"\n🎉 TESOURO ENCONTRADO! Recompensa total: {recompensa_total:.1f}")

break

# ============================================

# GRÁFICOS

# ============================================

print("\n" + "=" * 60)

print("GERANDO GRÁFICOS")

print("=" * 60)

plt.figure(figsize=(14, 5))

# Gráfico 1: Função Valor como mapa de calor

plt.subplot(1, 2, 1)

V_mapa = V_otimo.reshape(4, 4)

# Mascara para paredes

mask = modelo.grid == 1

V_mapa_masked = np.ma.masked_where(mask, V_mapa)

im = plt.imshow(V_mapa_masked, cmap='viridis', interpolation='nearest')

plt.colorbar(im, label='Valor V*(s)')

for i in range(4):

for j in range(4):

if modelo.grid[i, j] == 1:

plt.text(j, i, '█', ha='center', va='center', fontsize=20, color='black')

elif i*4+j == modelo.tesouro:

plt.text(j, i, '💰', ha='center', va='center', fontsize=16)

else:

plt.text(j, i, f'{V_mapa[i, j]:.1f}', ha='center', va='center',

fontsize=9, color='white' if V_mapa[i, j] > 5 else 'black')

plt.title('Função Valor V*(s) - Mapa de Calor\n(quanto mais amarelo, mais valioso)')

plt.xlabel('Coluna')

plt.ylabel('Linha')

# Gráfico 2: Política ótima visual

plt.subplot(1, 2, 2)

for i in range(4):

for j in range(4):

s = i * 4 + j

if modelo.grid[i, j] == 1:

plt.text(j, i, '██', ha='center', va='center', fontsize=20, color='gray')

elif s == modelo.tesouro:

plt.text(j, i, '💰', ha='center', va='center', fontsize=24)

else:

acao = politica_otima[s]

plt.text(j, i, setas[acao], ha='center', va='center', fontsize=28)

plt.xlim(-0.5, 3.5)

plt.ylim(3.5, -0.5)

plt.title('Política Ótima Derivada do Modelo\n(setas indicam o melhor movimento)')

plt.xlabel('Coluna')

plt.ylabel('Linha')

plt.grid(True, alpha=0.3)

plt.tight_layout()

plt.show()

# ============================================

# EXPLICAÇÃO DOS CONCEITOS

# ============================================

print("\n" + "=" * 60)

print("ENTENDENDO O MODELO DO AMBIENTE")

print("=" * 60)

print("""

✅ O QUE FOI DEMONSTRADO:

1. FUNÇÃO DE TRANSIÇÃO T(s,a):

- Define para onde o agente vai após cada ação

- No exemplo: movimento determinístico (não há escorregamento)

- Paredes bloqueiam a transição (agente permanece no lugar)

2. FUNÇÃO DE RECOMPENSA R(s,a):

- Cada movimento custa -0.1 (incentiva caminho curto)

- Bater na parede custa -0.5 (desincentiva)

- Encontrar o tesouro dá +10 (objetivo principal)

3. USO DO MODELO PARA PLANEJAMENTO:

- Iteração de Valor usa o modelo para calcular V*(s)

- A política ótima é extraída das funções valor

- Não é necessário interagir com o ambiente real

📊 FÓRMULAS MATEMÁTICAS UTILIZADAS:

• Equação de Bellman para V*:

[latex] V^*(s) = \max_a \sum_{s',r} p(s',r|s,a) [r + \gamma V^*(s')] [/latex]

• No nosso caso determinístico, simplifica para:

[latex] V^*(s) = \max_a [R(s,a) + \gamma V^*(T(s,a))] [/latex]

• Iteração de Valor atualiza iterativamente:

[latex] V_{k+1}(s) = \max_a [R(s,a) + \gamma V_k(T(s,a))] [/latex]

🎯 PRINCIPAIS HIPERPARÂMETROS:

• γ (gamma) = 0.95 - Fator de desconto (95% de importância para futuro)

• θ (theta) = 1e-6 - Critério de convergência

• max_iter = 1000 - Limite de iterações

DIFERENÇA ENTRE MODELO E APRENDIZADO POR REFORÇO:

• MODELO-BASE (demonstrado): Ambiente é conhecido.

O agente PLANEJA sem interagir. Usa equações de Bellman.

• LIVRE-MODELO (Q-learning): Ambiente é desconhecido.

O agente APRENDE por tentativa e erro.

""")

print("\n" + "=" * 60)

print("CONCLUSÃO")

print("=" * 60)

print("""

O modelo do ambiente (transição + recompensa) é uma representação

matemática do mundo. Ele permite que o agente planeje o futuro

sem executar ações reais. Isso é útil em robótica, jogos e

controle de processos. Quando o modelo é conhecido, métodos

como Iteração de Valor encontram a política ótima de forma

eficiente e garantida.

""")

print("✅ PROGRAMA CONCLUÍDO!")

Politica – Policy

23/05/202623/03/2026 Por antonino

Aprendizado por reforço: política (policy)

A política é o cérebro do agente. Ela define qual ação tomar em cada estado. Podemos pensar nela como uma estratégia ou um mapa. Sem uma política, o agente age aleatoriamente. Portanto, aprender uma boa política é o objetivo principal. A política pode ser determinística ou estocástica.

Tipos de política e sua representação

Uma política determinística mapeia cada estado a uma única ação. Escrevemos isso como \( a = \pi(s) \). Por exemplo, em um labirinto, sempre vá para a direita. Uma política estocástica, por outro lado, dá probabilidades para cada ação. Representamos isso como \( \pi(a|s) = P(A_t = a | S_t = s) \). Essa abordagem é útil para explorar. Consequentemente, políticas estocásticas evitam ficar presas em mínimos locais.

A política pode ser armazenada como uma tabela. Em estados discretos, isso é simples. Porém, em espaços contínuos, usamos redes neurais. A rede recebe o estado e retorna ações. Essa arquitetura chama-se Policy Network. Os hiperparâmetros incluem o tamanho das camadas escondidas. Por exemplo, 64 ou 128 neurônios. A taxa de aprendizado α também é crucial. Além disso, usamos um parâmetro de entropia para incentivar exploração.

Como as políticas são aprendidas e avaliadas

O teorema do gradiente da política é fundamental. Ele permite atualizar a política diretamente. A cada passo, ajustamos π para aumentar o retorno esperado. A fórmula do gradiente é \( \nabla_\theta J(\theta) = \mathbb{E}_\pi \left[ \nabla_\theta \log \pi_\theta(a|s) \cdot G_t \right] \). Aqui θ são os parâmetros da política. Esse método é chamado de REINFORCE. Uma variante comum usa um baseline para reduzir variância. O baseline geralmente é a função valor V(s).

Outra abordagem é a comparação entre políticas. Dizemos que π é melhor que π’ se seu retorno esperado for maior. A equação de Bellman para políticas é \( V^\pi(s) = \sum_a \pi(a|s) \sum_{s’,r} p(s’,r|s,a) [r + \gamma V^\pi(s’)] \). Essa equação é resolvida por iteração de política. Primeiro, avaliamos a política atual. Depois, a melhoramos guloso. Esse processo se repete até a convergência.

Exemplo clássico: subindo a montanha (Mountain Car)

Um carro fraco tenta subir uma montanha íngreme. Ele não consegue ir direto ao topo. Primeiro, precisa ir para trás ganhar inércia. A cada passo, o agente acelera para esquerda, direita ou neutro. A recompensa é -1 por cada passo até o topo. O estado é a posição e velocidade. O objetivo é aprender uma política que minimize os passos. O código abaixo implementa esse problema com gradiente de política.

import numpy as np
import matplotlib.pyplot as plt
import gym
from collections import deque

# Cria ambiente MountainCar
env = gym.make('MountainCar-v0')
print(f"Espaço de estados: {env.observation_space}")
print(f"Espaço de ações: {env.action_space}")

# Hiperparâmetros
num_episodios = 500
taxa_aprendizado = 0.001
gamma = 0.99
entropia_beta = 0.01

# Inicializa pesos da política (estado tem 2 dimensões, 3 ações)
W = np.random.randn(2, 3) * 0.01

def politica(estado, W):
    """Política linear softmax"""
    logits = np.dot(estado, W)
    exp_logits = np.exp(logits - np.max(logits))
    return exp_logits / np.sum(exp_logits)

def escolher_acao(estado, W):
    probs = politica(estado, W)
    return np.random.choice(3, p=probs)

def gradiente_log_politica(estado, acao, W):
    probs = politica(estado, W)
    grad = np.zeros_like(W)
    for a in range(3):
        grad[:, a] = estado * (1 if a == acao else 0) - estado * probs[a]
    return grad

recompensas_por_episodio = []
passos_por_episodio = []

for ep in range(num_episodios):
    estado = env.reset()[0]
    trajetoria_estados = []
    trajetoria_acoes = []
    trajetoria_recompensas = []
    feito = False
    passos = 0
    
    while not feito and passos < 1000:
        acao = escolher_acao(estado, W)
        prox_estado, recompensa, feito, _, _ = env.step(acao)
        
        trajetoria_estados.append(estado)
        trajetoria_acoes.append(acao)
        trajetoria_recompensas.append(recompensa)
        
        estado = prox_estado
        passos += 1
    
    passos_por_episodio.append(passos)
    recompensas_por_episodio.append(sum(trajetoria_recompensas))
    
    # Calcula retornos G_t
    retornos = []
    G = 0
    for r in reversed(trajetoria_recompensas):
        G = r + gamma * G
        retornos.insert(0, G)
    retornos = np.array(retornos)
    
    # Normaliza retornos para estabilidade
    if len(retornos) > 1:
        retornos = (retornos - np.mean(retornos)) / (np.std(retornos) + 1e-8)
    
    # Atualiza política com REINFORCE
    grad_total = np.zeros_like(W)
    for t in range(len(trajetoria_estados)):
        grad = gradiente_log_politica(trajetoria_estados[t], trajetoria_acoes[t], W)
        grad_total += grad * retornos[t]
    
    W += taxa_aprendizado * grad_total

# Gráfico 1: Evolução dos passos por episódio
plt.figure(figsize=(12,4))
plt.subplot(1,2,1)
plt.plot(passos_por_episodio, alpha=0.7)
media_movel = np.convolve(passos_por_episodio, np.ones(20)/20, mode='valid')
plt.plot(range(19, num_episodios), media_movel, 'r', linewidth=2, label='Média móvel 20')
plt.xlabel('Episódio')
plt.ylabel('Passos até o topo')
plt.title('Aprendizado da política (MountainCar)')
plt.legend()
plt.grid(True)

# Gráfico 2: Probabilidades da política final para cada estado
estados_teste = np.linspace(-1.2, 0.6, 50)
velocidades_teste = np.linspace(-0.07, 0.07, 50)
X, Y = np.meshgrid(estados_teste, velocidades_teste)
Z_esquerda = np.zeros_like(X)
Z_direita = np.zeros_like(X)

for i in range(len(estados_teste)):
    for j in range(len(velocidades_teste)):
        estado = np.array([estados_teste[i], velocidades_teste[j]])
        probs = politica(estado, W)
        Z_esquerda[j,i] = probs[0]  # ação esquerda
        Z_direita[j,i] = probs[2]   # ação direita

plt.subplot(1,2,2)
plt.contourf(X, Y, Z_direita - Z_esquerda, levels=20, cmap='RdBu')
plt.colorbar(label='Preferência por direita - esquerda')
plt.xlabel('Posição')
plt.ylabel('Velocidade')
plt.title('Política final aprendida')
plt.tight_layout()
plt.show()

print(f"Melhor episódio: {min(passos_por_episodio)} passos")
print(f"Média dos últimos 100 episódios: {np.mean(passos_por_episodio[-100:]):.1f} passos")

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

import numpy as np

import matplotlib.pyplot as plt

import gym

from collections import deque

# Cria ambiente MountainCar

env = gym.make('MountainCar-v0')

print(f"Espaço de estados: {env.observation_space}")

print(f"Espaço de ações: {env.action_space}")

# Hiperparâmetros

num_episodios = 500

taxa_aprendizado = 0.001

gamma = 0.99

entropia_beta = 0.01

# Inicializa pesos da política (estado tem 2 dimensões, 3 ações)

W = np.random.randn(2, 3) * 0.01

def politica(estado, W):

"""Política linear softmax"""

logits = np.dot(estado, W)

exp_logits = np.exp(logits - np.max(logits))

return exp_logits / np.sum(exp_logits)

def escolher_acao(estado, W):

probs = politica(estado, W)

return np.random.choice(3, p=probs)

def gradiente_log_politica(estado, acao, W):

probs = politica(estado, W)

grad = np.zeros_like(W)

for a in range(3):

grad[:, a] = estado * (1 if a == acao else 0) - estado * probs[a]

return grad

recompensas_por_episodio = []

passos_por_episodio = []

for ep in range(num_episodios):

estado = env.reset()[0]

trajetoria_estados = []

trajetoria_acoes = []

trajetoria_recompensas = []

feito = False

passos = 0

while not feito and passos < 1000:

acao = escolher_acao(estado, W)

prox_estado, recompensa, feito, _, _ = env.step(acao)

trajetoria_estados.append(estado)

trajetoria_acoes.append(acao)

trajetoria_recompensas.append(recompensa)

estado = prox_estado

passos += 1

passos_por_episodio.append(passos)

recompensas_por_episodio.append(sum(trajetoria_recompensas))

# Calcula retornos G_t

retornos = []

G = 0

for r in reversed(trajetoria_recompensas):

G = r + gamma * G

retornos.insert(0, G)

retornos = np.array(retornos)

# Normaliza retornos para estabilidade

if len(retornos) > 1:

retornos = (retornos - np.mean(retornos)) / (np.std(retornos) + 1e-8)

# Atualiza política com REINFORCE

grad_total = np.zeros_like(W)

for t in range(len(trajetoria_estados)):

grad = gradiente_log_politica(trajetoria_estados[t], trajetoria_acoes[t], W)

grad_total += grad * retornos[t]

W += taxa_aprendizado * grad_total

# Gráfico 1: Evolução dos passos por episódio

plt.figure(figsize=(12,4))

plt.subplot(1,2,1)

plt.plot(passos_por_episodio, alpha=0.7)

media_movel = np.convolve(passos_por_episodio, np.ones(20)/20, mode='valid')

plt.plot(range(19, num_episodios), media_movel, 'r', linewidth=2, label='Média móvel 20')

plt.xlabel('Episódio')

plt.ylabel('Passos até o topo')

plt.title('Aprendizado da política (MountainCar)')

plt.legend()

plt.grid(True)

# Gráfico 2: Probabilidades da política final para cada estado

estados_teste = np.linspace(-1.2, 0.6, 50)

velocidades_teste = np.linspace(-0.07, 0.07, 50)

X, Y = np.meshgrid(estados_teste, velocidades_teste)

Z_esquerda = np.zeros_like(X)

Z_direita = np.zeros_like(X)

for i in range(len(estados_teste)):

for j in range(len(velocidades_teste)):

estado = np.array([estados_teste[i], velocidades_teste[j]])

probs = politica(estado, W)

Z_esquerda[j,i] = probs[0] # ação esquerda

Z_direita[j,i] = probs[2] # ação direita

plt.subplot(1,2,2)

plt.contourf(X, Y, Z_direita - Z_esquerda, levels=20, cmap='RdBu')

plt.colorbar(label='Preferência por direita - esquerda')

plt.xlabel('Posição')

plt.ylabel('Velocidade')

plt.title('Política final aprendida')

plt.tight_layout()

plt.show()

print(f"Melhor episódio: {min(passos_por_episodio)} passos")

print(f"Média dos últimos 100 episódios: {np.mean(passos_por_episodio[-100:]):.1f} passos")

O código implementa REINFORCE para o Mountain Car. O agente aprende uma política estocástica linear. Inicialmente, ele age aleatoriamente e demora muitos passos. Com o tempo, a política melhora e o carro sobe mais rápido. O segundo gráfico mostra a preferência da política final. Regiões em azul indicam tendência a acelerar para a direita. Este exemplo demonstra como políticas são aprendidas na prática.