一句话定义

价值函数衡量在给定策略下的期望回报,是策略改进的核心工具。

问题设定

  • 输入:策略 $\pi$。
  • 输出:$V^\pi(s)$ 或 $Q^\pi(s,a)$。
  • 假设:回报可用期望表示。
  • 边界:需要估计或近似。

数学表述

状态价值: \(V^\pi(s) = \mathbb{E}_\pi\left[\sum_{t=0}^\infty \gamma^t r_t \mid s_0=s\right]\) 动作价值: \(Q^\pi(s,a) = \mathbb{E}_\pi\left[\sum_{t=0}^\infty \gamma^t r_t \mid s_0=s,a_0=a\right]\)

算法解释

  • $V$ 评估状态好坏,$Q$ 评估动作选择。

优化与实现细节

  • 数值要点:估计价值可用蒙特卡洛或 TD。

关联与边界

  • 与策略梯度/actor-critic 紧密相关。
  • 边界:价值估计误差会影响策略改进。

失败模式

  • 价值估计偏差导致策略退化。
  • 高方差估计导致不稳定。

最小伪代码

Estimate V or Q
Use value to improve policy

决策清单

  • 价值函数形式已选定
  • 估计方法稳定
  • 与策略更新一致

个人备注

TODO