回报与折扣 Return Discount

一句话定义

折扣因子控制未来回报的重要性，决定长期规划与稳定性权衡。

问题设定

输入：回报序列 $r_t$。
输出：折扣回报 $G_t$。
假设：回报可累积且有衰减。
边界：$\gamma$ 过大易不稳定，过小短视。

数学表述

\(G_t = \sum_{k=0}^{\infty} \gamma^k r_{t+k}\)

算法解释

$\gamma$ 越大越重视长期收益。

优化与实现细节

数值要点：无穷和可用截断回报近似。

关联与边界

与稳定性与收敛性相关。
边界：有限时域任务可用 $\gamma=1$。

失败模式

过大 $\gamma$ 导致方差过高。
过小 $\gamma$ 导致策略短视。

最小伪代码

Compute discounted return G_t

决策清单

任务时域清晰
折扣因子与稳定性匹配
方差可接受

个人备注

TODO