信用分配 Credit Assignment
一句话定义
信用分配解决长期回报中哪些动作对结果贡献最大的因果问题。
问题设定
- 输入:长期回报信号。
- 输出:各时间步或模块的贡献估计。
- 假设:回报信号可拆解。
- 边界:长时延导致方差高。
数学表述
TD 误差为一种局部信用信号: \(\delta_t = r_t + \gamma V(s_{t+1}) - V(s_t)\)
算法解释
- 通过回溯或优势函数分配信用。
- 使用 eligibility traces 或 GAE 改善。
优化与实现细节
- 数值要点:GAE 平衡偏差与方差。
关联与边界
- 与稀疏奖励、长时序任务强相关。
- 边界:过长延迟仍难以准确分配。
失败模式
- 信用延迟导致学习缓慢。
- 错误信用分配导致策略崩溃。
最小伪代码
Compute advantage estimates
Use as credit signal for policy update
决策清单
- 奖励稀疏程度可控
- 采用 GAE 或其他平衡方法
- 评估信用分配稳定性
个人备注
TODO