策略评估 Policy Evaluation

一句话定义

策略评估通过贝尔曼期望方程计算给定策略的价值函数。

问题设定

输入：策略 $\pi$，MDP $(S,A,P,R,\gamma)$。
输出：$V^\pi$ 或 $Q^\pi$。
假设：模型已知。
边界：仅适用于可获得转移模型的场景。

数学表述

贝尔曼期望方程： \(V^\pi(s) = \sum_{a} \pi(a\mid s) \sum_{s'} P(s'\mid s,a)\big(R(s,a,s') + \gamma V^\pi(s')\big)\)

算法解释

通过迭代收敛到 $V^\pi$。

优化与实现细节

目标来源：线性方程组求解。
数值要点：同步/异步迭代；终止条件基于 $|V_{k+1}-V_k|$。

关联与边界

与策略迭代结合形成完整 DP。
边界：状态空间大时不可扩展。

失败模式

模型误差导致评估偏差。
迭代收敛慢。

最小伪代码

Initialize V
Repeat:
  V(s) = sum_a pi(a|s) sum_{s'} P(s'|s,a)[R + gamma V(s')]
Until convergence

决策清单

转移模型可用
状态空间可遍历
收敛阈值合理

个人备注

TODO