价值迭代 Value Iteration

一句话定义

价值迭代直接迭代贝尔曼最优算子以收敛到最优价值函数。

问题设定

输入：MDP。
输出：$V^$ 与最优策略 $\pi^$。
假设：模型已知。
边界：状态空间大时不可扩展。

数学表述

贝尔曼最优方程： \(V^*(s) = \max_a \sum_{s'} P(s'\mid s,a)\big(R(s,a,s') + \gamma V^*(s')\big)\)

算法解释

通过最优算子迭代逼近 $V^*$。

优化与实现细节

数值要点：终止条件基于 Bellman 残差。

关联与边界

对比策略迭代：每步更便宜但迭代次数更多。

失败模式

收敛慢。
大规模状态不可处理。

最小伪代码

Initialize V
Repeat:
  V(s) = max_a sum_{s'} P(s'|s,a)[R + gamma V(s')]
Derive greedy policy

决策清单

模型已知
需要最优价值函数
状态空间规模可控

个人备注

TODO