1 minute read

Title + 摘要

本文提出 Diffusion Policy,将机器人 visuomotor policy 表示为条件去噪扩散过程,在动作空间中迭代采样生成动作序列。作者在 4 个基准、15 个任务上评估,平均提升 46.9%,并展示在真实机器人上的多任务操作能力。核心优势包括:对多模态动作分布的表达、适配高维动作序列、训练更稳定。为让扩散模型适用于实时控制,文中引入receding horizon视觉条件化以及时间序列扩散 Transformer等关键设计。

1. Problem Setting(任务/场景/假设)

将模仿学习视作学习条件分布 $p(a|o)$。传统回归式策略在多模态行为、长时序相关以及精确控制方面表现不稳。本文目标是在视觉观测条件下,生成高维动作序列,并保持多模态表达与稳定训练。

2. Motivation & Key Challenges

  • 多模态行为:同一观测下存在多种合理动作。
  • 高维动作序列:单步动作无法表达稳定的时序行为。
  • 训练稳定性:能量模型或隐式策略往往需要负采样,训练不稳。

3. Method Overview(系统框图 + 文字解释)

扩散策略在动作序列空间中进行 K 步去噪,并通过视觉观测条件化。

Observation window O_t (last T_o steps)
        |
        +--> Visual encoder -> Obs Emb
                         |
Action noise A_t^K ------+--> Diffusion Net (CNN+FiLM or Transformer)
                         |
                      A_t^0 (denoised action sequence)
        |
Execute first T_a actions, then receding horizon replan

4. Core Components(逐模块,带公式/伪代码/维度)

4.1 DDPM 去噪生成(动作序列)

从高斯噪声开始,迭代去噪得到动作序列:

\[x_{k-1} = \alpha_k \left(x_k - \lambda_k \, \epsilon_\theta(x_k, k) + \mathcal{N}(0, \sigma_k^2 I)\right)\]

可视为带噪的梯度下降:

\[x' = x - \lambda \nabla E(x)\]

其中 $\epsilon_\theta$ 近似梯度场。

4.2 DDPM 训练目标

随机选 $k$ 并对 $x_0$ 加噪:

\[\mathcal{L} = \mathrm{MSE}\left(\epsilon_k, \epsilon_\theta(x_0 + \epsilon_k, k)\right)\]

该目标等价于最小化 DDPM 生成分布与数据分布的 KL 上界。

4.3 视觉条件化扩散(策略建模)

策略学习条件分布 $p(A_t | O_t)$,修改去噪公式:

\[A_{t,k-1} = \alpha_k \left(A_{t,k} - \lambda_k \, \epsilon_\theta(O_t, A_{t,k}, k) + \mathcal{N}(0, \sigma_k^2 I)\right)\]

训练损失对应变为:

\[\mathcal{L} = \mathrm{MSE}\left(\epsilon_k, \epsilon_\theta(O_t, A_{t,0} + \epsilon_k, k)\right)\]

4.4 Receding Horizon 控制

在时间步 $t$,模型输入最近 $T_o$ 步观测,预测 $T_p$ 步动作,只执行前 $T_a$ 步:

  • $T_o$:观测窗口长度
  • $T_p$:动作预测长度
  • $T_a$:执行长度(每执行 $T_a$ 重新规划)

这样既能维持时序一致性,又能保持对新观测的响应。

4.5 网络结构选项

CNN + FiLM:观测特征对每层卷积做通道级调制。
Transformer:将观测嵌入输入交叉注意力层,动作 token 使用因果注意力以保持序列因果性。

5. Experiments & Results(结果表格、消融、失败案例)

总体表现:在 4 个基准 15 个任务上平均提升 46.9%,包括模拟与真实场景、2DoF 至 6DoF、刚体与流体任务。
真实机器人:在 Push-T 与多种双臂任务中展示稳健性能。
消融结论(文字版)

  • 较大的动作预测长度有助于平滑与多模态行为表达。
  • 视觉条件化显著提升推理速度,并使端到端训练更可行。
  • 训练稳定性优于隐式能量模型,减少负采样带来的不稳定。

6. Discussion(优势/局限)

优势

  • 多模态动作分布建模自然,避免回归平均化。
  • 直接预测动作序列,保持时间一致性。
  • 训练稳定,超参数敏感度低。

局限

  • 推理仍需多步去噪,实时性受步数 K 影响。
  • 需要较大演示数据量以覆盖复杂动作分布。

7. My Takeaways(个人总结)

1) 用扩散模型来建模动作序列,比单步回归更适合高维连续控制。
2) 视觉条件化是关键工程点,能把扩散推理开销控制在可用范围。
3) Receding horizon 让“长规划+短反馈”兼得,是部署到真实机器人的重要桥梁。

References

  • [1] Cheng Chi et al. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion. arXiv:2303.04137v5, 2024.

Updated: