策略与价值 Policy Value

一句话定义

价值函数衡量在给定策略下的期望回报，是策略改进的核心工具。

问题设定

输入：策略 $\pi$。
输出：$V^\pi(s)$ 或 $Q^\pi(s,a)$。
假设：回报可用期望表示。
边界：需要估计或近似。

数学表述

状态价值： $V^\pi(s) = \mathbb{E}_\pi\left[\sum_{t=0}^\infty \gamma^t r_t \mid s_0=s\right]$ 动作价值： $Q^\pi(s,a) = \mathbb{E}_\pi\left[\sum_{t=0}^\infty \gamma^t r_t \mid s_0=s,a_0=a\right]$

算法解释

$V$ 评估状态好坏，$Q$ 评估动作选择。

优化与实现细节

数值要点：估计价值可用蒙特卡洛或 TD。

关联与边界

与策略梯度/actor-critic 紧密相关。
边界：价值估计误差会影响策略改进。

失败模式

价值估计偏差导致策略退化。
高方差估计导致不稳定。

最小伪代码

Estimate V or Q
Use value to improve policy

决策清单

价值函数形式已选定
估计方法稳定
与策略更新一致

个人备注

TODO