离策略 Off Policy
一句话定义
离策略方法使用与目标策略不同的行为策略采样并进行学习。
问题设定
- 输入:行为策略 $\mu$、目标策略 $\pi$。
- 输出:目标策略的价值或参数。
- 假设:可从 $\mu$ 采样且能估计重要性权重。
- 边界:分布偏移大时估计高方差。
数学表述
重要性采样: \(\mathbb{E}_{\pi}[f] = \mathbb{E}_{\mu}\left[\frac{\pi(a\mid s)}{\mu(a\mid s)} f\right]\)
算法解释
- 用行为策略探索,目标策略学习。
- 提升样本效率但引入偏差/方差问题。
优化与实现细节
- 数值要点:截断或加权重要性采样降低方差。
关联与边界
- 对比在策略:在策略更稳定但样本效率低。
- 边界:行为策略与目标策略差距过大易不稳定。
失败模式
- 权重爆炸导致梯度不稳定。
- 经验回放分布偏移。
最小伪代码
Collect data with behavior policy
Compute importance weights
Update target policy/value
决策清单
- 行为策略与目标策略差距可控
- 重要性采样稳定
- 回放分布管理
个人备注
TODO