TD 学习 TD Learning

一句话定义

时序差分通过自举更新价值估计，结合 MC 与 DP 的优点。

问题设定

输入：在线样本 $(s_t,a_t,r_t,s_{t+1})$。
输出：价值函数估计。
假设：可逐步采样。
边界：估计偏差来自自举。

数学表述

TD(0) 误差： \(\delta_t = r_t + \gamma V(s_{t+1}) - V(s_t)\) 更新： \(V(s_t) \leftarrow V(s_t) + \alpha \delta_t\)

算法解释

使用下一步估计替代完整回合回报。

优化与实现细节

数值要点：步长 $\alpha$ 控制稳定性。

关联与边界

对比 MC：TD 方差低但有偏。
对比 DP：TD 不需模型。

失败模式

自举误差累积。
步长不当导致不稳定。

最小伪代码

For each transition:
  delta = r + gamma V(s') - V(s)
  V(s) = V(s) + alpha * delta

决策清单

在线更新需求明确
步长与稳定性可控
估计偏差可接受

个人备注

TODO