部分可观测马尔可夫决策过程 POMDP
一句话定义
POMDP 在 MDP 基础上引入观测函数,处理状态不可完全观测的决策问题。
问题设定
- 输入:$S,A,P,R,O,Z$。
- 输出:策略 $\pi(a\mid o)$ 或 $\pi(a\mid b)$。
- 假设:观测仅部分反映状态。
- 边界:状态估计或记忆成为关键。
数学表述
观测模型: \(Z(o\mid s,a)\)
Belief 更新: \(b'(s') = \eta \, Z(o'\mid s',a) \sum_{s} P(s'\mid s,a) b(s)\)
算法解释
- 决策基于 belief state 而非真实状态。
优化与实现细节
- 数值要点:需要状态估计或递归记忆模型。
关联与边界
- 对比 MDP:引入观测不确定性。
- 边界:高维 belief 空间难以求解。
失败模式
- 观测噪声导致策略不稳定。
- 记忆模型不足以恢复状态。
最小伪代码
Maintain belief b(s)
Update belief with observations
Select action by policy
决策清单
- 观测模型可用或可估计
- 有状态估计或记忆结构
- 评估部分可观测影响
个人备注
TODO