World Model-based Perception for Visual Legged Locomotion

1 minute read

Title + 摘要

本文提出 World Model-based Perception (WMP)，通过世界模型把高维视觉观测压缩为可用于控制的低维隐变量，从而避免“特权信息教师-学生”框架的性能上限和信息鸿沟。方法使用 RSSM 在仿真中学习可预测未来感知的隐状态，并把该隐状态输入到视觉 locomotion 策略中。作者强调世界模型即使只用仿真训练，也能在真实机器人上预测合理的轨迹感知，帮助策略做决策。实验覆盖 Slope、Stair、Gap、Climb、Crawl、Tilt 等地形，WMP 在仿真中接近 Teacher 的回报，在真机 A1 上可通过更困难的间隙与障碍（如 Gap 85cm、Climb 55cm、Crawl 22cm），整体表现优于学生策略与其它基线。

1. Problem Setting（任务/场景/假设）

将视觉四足移动建模为 POMDP：

\[\pi^* = \arg\max_\pi \mathbb{E}\left[\sum_{t=0}^\infty \gamma^t r(s_t, a_t)\right]\]

观测由本体感觉与深度图构成，特权信息只在仿真可得：

\[o_t := (o_t^{prop}, d_t)\] \[s_t := (o_t, s_t^{pri})\]

目标是在视觉部分可用、特权信息不可用的现实环境中，学习可迁移的控制策略。

2. Motivation & Key Challenges

直接从像素端到端强化学习数据效率低，且前向相机需要记忆历史观测来感知脚下地形。
特权学习的 teacher/student 有不可避免的性能差距，且特权信息设计难以泛化到复杂地形（例如 gap 边界、低矮遮挡）。
动物直觉上会建立“世界模型”进行预测，暗示用模型压缩历史观测可能更自然、更高效。

3. Method Overview（系统框图 + 文字解释）

WMP 采用“世界模型 + 策略”的单阶段学习。世界模型低频更新隐状态，策略高频输出动作。

Depth Image d_t + Proprio o_t^prop
        |        |
        |        +--> Encoder q_phi -> z_t (posterior)
        |                              |
        +--> RSSM f_phi --------------> h_t (deterministic)
                        |              |
                        +--> Prior p_phi(z_t | h_t)
                        +--> Decoder p_phi(o_t | h_t, z_t)

Policy: a_{t+i} ~ pi_theta(o_{t+i}^prop, stopgrad(h_t)), i in [0, k-1]
Critic: V_psi(o_{t+i}, stopgrad(h_t), s_{t+i}^pri)

关键点：世界模型每 k 个控制步更新一次，节省感知与计算开销，并让隐状态承担“记忆/预测”功能。

4. Core Components（逐模块，带公式/伪代码/维度）

4.1 RSSM 世界模型（结构与变量）

RSSM 由四部分组成：

\[h_t = f_\phi(h_{t-k}, z_{t-k}, a_{t-k:t-1})\] \[z_t \sim q_\phi(\cdot | h_t, o_t), \quad \hat{z}_t \sim p_\phi(\cdot | h_t)\] \[\hat{o}_t \sim p_\phi(\cdot | h_t, z_t)\]

$h_t$：确定性隐状态（GRU 更新）
$z_t$：随机隐状态（posterior）
$\hat{z}_t$：先验预测（prior）
$\hat{o}_t$：重建观测

4.2 RSSM 训练目标（重建 + KL）

对长度为 $L$ 的序列最小化：

\[\mathcal{L}(\phi) = \mathbb{E}\left[\sum_{t=nk}^{nk+L} -\ln p_\phi(o_t | z_t, h_t) + \beta \, \mathrm{KL}\left(q_\phi(\cdot|h_t,o_t) \,\|\, p_\phi(\cdot|h_t)\right)\right]\]

含义：

重建项确保 $z_t$ 包含足够观测信息；
KL 项对齐 posterior 与 prior，使模型可在缺失观测时进行开环预测。

4.3 策略学习（利用隐状态）

策略在每个世界模型周期内复用同一 $h_t$：

\[a_{t+i} \sim \pi_\theta(\cdot | o^{prop}_{t+i}, \mathrm{sg}(h_t)), \quad i \in [0, k-1]\]

critic 允许访问特权信息以稳定训练（非对称 actor-critic）：

\[v(s_{t+i}) = V_\psi(o_{t+i}, \mathrm{sg}(h_t), s^{pri}_{t+i})\]

4.4 关节控制（PD）

动作 $a_t$ 输出关节目标位置偏移，PD 控制为：

\[\tau = K_p(q_d - q) + K_d(\dot{q}_d - \dot{q})\]

其中 $q_d = q^{stand} + a_t$，$\dot{q}_d = 0$。

4.5 奖励设计（追踪 + 风格）

速度追踪奖励（简化的方向追踪）：

\[r_{tracking} = \exp\left(\min(v_{xy}^{cmd}, v_{xy}^{cmd} + 0.1) - v_{xy}^2 / \sigma\right)\]

风格奖励采用 AMP：

\[r_{style}(s, s') = \max\left[0, 1 - 0.25(D_\psi(s, s') - 1)^2\right]\]

判别器训练目标：

\[\min_\psi \; \mathbb{E}_{(s,s')\sim D_{ref}}(D_\psi-1)^2 + \mathbb{E}_{(s,s')\sim \pi_\theta}(D_\psi+1)^2 + \frac{w_{gp}}{2}\mathbb{E}_{D_{ref}}\|\nabla_\psi D_\psi\|^2\]

5. Experiments & Results（结果表格、消融、失败案例）

仿真结果：在 Slope、Stair、Gap、Climb、Tilt、Crawl 等地形上，WMP 的回报接近 Teacher，显著优于 Student 与 Blind。尤其在 Gap/Climb/Crawl 等需要提前感知的地形，Student 和 Blind 出现明显退化，WMP 仍保持稳定。

真机结果（Unitree A1）：

Gap 85cm（约 2.1x 机身长度）
Climb 55cm（约 2.2x 机身高度）
Crawl 22cm（约 0.8x 机身高度）

整体表明模型学到的隐状态可跨 sim-to-real，为控制提供有效的先验信息。

6. Ablations & Sensitivity

世界模型更新间隔 $k$：$k$ 越小仿真回报越高，但计算与感知成本更高；作者选择 $k=5$ 作为准确性与实时性的折中。
训练序列长度 $L$：约 1s 的历史就能达到较好效果，最终使用 6.4s 训练长度以覆盖长程依赖。
去除 depth 或 proprio：去除 depth 的 world model 相当于 blind 策略，性能显著下降，说明视觉建模是关键。

7. 真实世界预测分析

世界模型在真实数据上仍能预测合理的未来深度图像，尤其在关键障碍前表现良好，暗示 latent-space 的预测具有一定 sim-to-real 泛化能力。

8. Discussion（优势/局限）

优势

单阶段训练，避免 teacher/student 信息鸿沟。
世界模型提供低维、可预测的隐状态，有效解决部分可观测问题。
sim-to-real 迁移效果强，适用于复杂地形。

局限

世界模型仍完全依赖仿真数据，现实差异可能导致预测偏差。
模型频率与计算开销仍是部署瓶颈（需权衡 k）。
没有使用模型进行 imagination rollout，训练效率可能仍受限于仿真采样。

9. My Takeaways（个人总结）

1) 视觉 locomotion 的关键不是更强的 CNN，而是“能预测的隐状态”来做时间对齐与先验推断。
2) RSSM 的 KL 约束是保证开环预测能力的核心，实质上在逼近“短期世界模型”。
3) 相比特权学习，WMP 把“记忆+预测”显式化，更贴近动物认知机制。
4) 若要进一步提升，混合真实数据训练世界模型或引入基于模型的 imagination 可能是下一个方向。

References

[1] Hang Lai et al. World Model-based Perception for Visual Legged Locomotion. arXiv:2409.16784v1, 2024.

Share on

X Facebook LinkedIn Bluesky

Jerry Zhu