Diffusion Policy: Visuomotor Policy Learning via Action Diffusion

1 minute read

Title + 摘要

本文提出 Diffusion Policy，将机器人 visuomotor policy 表示为条件去噪扩散过程，在动作空间中迭代采样生成动作序列。作者在 4 个基准、15 个任务上评估，平均提升 46.9%，并展示在真实机器人上的多任务操作能力。核心优势包括：对多模态动作分布的表达、适配高维动作序列、训练更稳定。为让扩散模型适用于实时控制，文中引入receding horizon、视觉条件化以及时间序列扩散 Transformer等关键设计。

1. Problem Setting（任务/场景/假设）

将模仿学习视作学习条件分布 $p(a|o)$。传统回归式策略在多模态行为、长时序相关以及精确控制方面表现不稳。本文目标是在视觉观测条件下，生成高维动作序列，并保持多模态表达与稳定训练。

2. Motivation & Key Challenges

多模态行为：同一观测下存在多种合理动作。
高维动作序列：单步动作无法表达稳定的时序行为。
训练稳定性：能量模型或隐式策略往往需要负采样，训练不稳。

3. Method Overview（系统框图 + 文字解释）

扩散策略在动作序列空间中进行 K 步去噪，并通过视觉观测条件化。

Observation window O_t (last T_o steps)
        |
        +--> Visual encoder -> Obs Emb
                         |
Action noise A_t^K ------+--> Diffusion Net (CNN+FiLM or Transformer)
                         |
                      A_t^0 (denoised action sequence)
        |
Execute first T_a actions, then receding horizon replan

4. Core Components（逐模块，带公式/伪代码/维度）

4.1 DDPM 去噪生成（动作序列）

从高斯噪声开始，迭代去噪得到动作序列：

\[x_{k-1} = \alpha_k \left(x_k - \lambda_k \, \epsilon_\theta(x_k, k) + \mathcal{N}(0, \sigma_k^2 I)\right)\]

可视为带噪的梯度下降：

\[x' = x - \lambda \nabla E(x)\]

其中 $\epsilon_\theta$ 近似梯度场。

4.2 DDPM 训练目标

随机选 $k$ 并对 $x_0$ 加噪：

\[\mathcal{L} = \mathrm{MSE}\left(\epsilon_k, \epsilon_\theta(x_0 + \epsilon_k, k)\right)\]

该目标等价于最小化 DDPM 生成分布与数据分布的 KL 上界。

4.3 视觉条件化扩散（策略建模）

策略学习条件分布 $p(A_t | O_t)$，修改去噪公式：

\[A_{t,k-1} = \alpha_k \left(A_{t,k} - \lambda_k \, \epsilon_\theta(O_t, A_{t,k}, k) + \mathcal{N}(0, \sigma_k^2 I)\right)\]

训练损失对应变为：

\[\mathcal{L} = \mathrm{MSE}\left(\epsilon_k, \epsilon_\theta(O_t, A_{t,0} + \epsilon_k, k)\right)\]

4.4 Receding Horizon 控制

在时间步 $t$，模型输入最近 $T_o$ 步观测，预测 $T_p$ 步动作，只执行前 $T_a$ 步：

$T_o$：观测窗口长度
$T_p$：动作预测长度
$T_a$：执行长度（每执行 $T_a$ 重新规划）

这样既能维持时序一致性，又能保持对新观测的响应。

4.5 网络结构选项

CNN + FiLM：观测特征对每层卷积做通道级调制。
Transformer：将观测嵌入输入交叉注意力层，动作 token 使用因果注意力以保持序列因果性。

5. Experiments & Results（结果表格、消融、失败案例）

总体表现：在 4 个基准 15 个任务上平均提升 46.9%，包括模拟与真实场景、2DoF 至 6DoF、刚体与流体任务。
真实机器人：在 Push-T 与多种双臂任务中展示稳健性能。
消融结论（文字版）：

较大的动作预测长度有助于平滑与多模态行为表达。
视觉条件化显著提升推理速度，并使端到端训练更可行。
训练稳定性优于隐式能量模型，减少负采样带来的不稳定。

6. Discussion（优势/局限）

优势

多模态动作分布建模自然，避免回归平均化。
直接预测动作序列，保持时间一致性。
训练稳定，超参数敏感度低。

局限

推理仍需多步去噪，实时性受步数 K 影响。
需要较大演示数据量以覆盖复杂动作分布。

7. My Takeaways（个人总结）

1) 用扩散模型来建模动作序列，比单步回归更适合高维连续控制。
2) 视觉条件化是关键工程点，能把扩散推理开销控制在可用范围。
3) Receding horizon 让“长规划+短反馈”兼得，是部署到真实机器人的重要桥梁。

References

[1] Cheng Chi et al. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion. arXiv:2303.04137v5, 2024.

Share on

X Facebook LinkedIn Bluesky

Jerry Zhu