记忆与递归 Memory Recurrence
一句话定义
记忆与递归结构用于在部分可观测环境中保留历史信息。
问题设定
- 输入:观测序列 $o_t$。
- 输出:隐状态 $h_t$ 或记忆表示。
- 假设:历史信息对决策关键。
- 边界:长记忆学习难度高。
数学表述
递归更新: \(h_t = f(h_{t-1}, o_t)\)
算法解释
- 使用 RNN/LSTM/Transformer 形成隐式 belief。
优化与实现细节
- 数值要点:梯度稳定与截断 BPTT。
关联与边界
- 与 POMDP 强相关。
- 边界:记忆不足导致策略退化。
失败模式
- 梯度消失导致记忆衰退。
- 记忆漂移导致错误策略。
最小伪代码
For each timestep:
h = f(h, o)
a = pi(h)
决策清单
- 任务部分可观测
- 选择合适记忆结构
- 训练稳定性保证
个人备注
TODO