奖励设计 Reward Design
一句话定义
奖励设计决定智能体的学习目标与行为偏好,是 RL 成功与否的关键工程环节。
问题设定
- 输入:任务目标与环境状态。
- 输出:奖励函数 $R(s,a,s’)$。
- 假设:奖励能够表达任务意图。
- 边界:不当奖励导致策略偏差或欺骗性行为。
数学表述
回报: \(G_t = \sum_{k=0}^\infty \gamma^k r_{t+k}\) 奖励塑形: \(R'(s,a,s') = R(s,a,s') + F(s') - F(s)\)
算法解释
- 稀疏奖励适合明确终止条件。
- 稠密奖励加速学习但可能引入偏差。
优化与实现细节
- 数值要点:奖励尺度影响梯度与稳定性;需归一化或裁剪。
关联与边界
- 与信用分配、探索直接相关。
- 边界:奖励塑形不当会改变最优策略。
失败模式
- 奖励黑客(reward hacking)。
- 探索不足导致陷入局部最优。
最小伪代码
Define task goal
Design reward function
Validate with rollouts
决策清单
- 奖励与任务目标一致
- 避免可被利用的漏洞
- 奖励尺度稳定
个人备注
TODO