策略迭代 Policy Iteration

一句话定义

策略迭代交替执行策略评估与策略改进以收敛到最优策略。

问题设定

输入：MDP、初始策略 $\pi_0$。
输出：最优策略 $\pi^*$。
假设：模型已知。
边界：大规模 MDP 计算昂贵。

数学表述

策略改进： \(\pi_{k+1}(s) = \arg\max_a \sum_{s'} P(s'\mid s,a)\big(R(s,a,s') + \gamma V^{\pi_k}(s')\big)\)

算法解释

评估得到价值函数，改进得到更优策略。

优化与实现细节

数值要点：可用截断评估近似替代精确评估。

关联与边界

对比价值迭代：策略迭代收敛更快但每轮成本更高。

失败模式

状态空间大导致评估不可扩展。

最小伪代码

Initialize policy pi
Repeat:
  Evaluate V^pi
  Improve pi by greedy w.r.t V^pi
Until policy stable

决策清单

模型已知
评估成本可接受
需要稳定最优策略

个人备注

TODO