Jerry Zhu Home

Diffusion Policy: Visuomotor Policy Learning via Action Diffusion

2026-01-13T00:00:00+08:00

Title + 摘要

本文提出 Diffusion Policy，将机器人 visuomotor policy 表示为条件去噪扩散过程，在动作空间中迭代采样生成动作序列。作者在 4 个基准、15 个任务上评估，平均提升 46.9%，并展示在真实机器人上的多任务操作能力。核心优势包括：对多模态动作分布的表达、适配高维动作序列、训练更稳定。为让扩散模型适用于实时控制，文中引入receding horizon、视觉条件化以及时间序列扩散 Transformer等关键设计。

1. Problem Setting（任务/场景/假设）

将模仿学习视作学习条件分布 $p(a|o)$。传统回归式策略在多模态行为、长时序相关以及精确控制方面表现不稳。本文目标是在视觉观测条件下，生成高维动作序列，并保持多模态表达与稳定训练。

2. Motivation & Key Challenges

多模态行为：同一观测下存在多种合理动作。
高维动作序列：单步动作无法表达稳定的时序行为。
训练稳定性：能量模型或隐式策略往往需要负采样，训练不稳。

3. Method Overview（系统框图 + 文字解释）

扩散策略在动作序列空间中进行 K 步去噪，并通过视觉观测条件化。

Observation window O_t (last T_o steps)
        |
        +--> Visual encoder -> Obs Emb
                         |
Action noise A_t^K ------+--> Diffusion Net (CNN+FiLM or Transformer)
                         |
                      A_t^0 (denoised action sequence)
        |
Execute first T_a actions, then receding horizon replan

4. Core Components（逐模块，带公式/伪代码/维度）

4.1 DDPM 去噪生成（动作序列）

从高斯噪声开始，迭代去噪得到动作序列：

\[x_{k-1} = \alpha_k \left(x_k - \lambda_k \, \epsilon_\theta(x_k, k) + \mathcal{N}(0, \sigma_k^2 I)\right)\]

可视为带噪的梯度下降：

\[x' = x - \lambda \nabla E(x)\]

其中 $\epsilon_\theta$ 近似梯度场。

4.2 DDPM 训练目标

随机选 $k$ 并对 $x_0$ 加噪：

\[\mathcal{L} = \mathrm{MSE}\left(\epsilon_k, \epsilon_\theta(x_0 + \epsilon_k, k)\right)\]

该目标等价于最小化 DDPM 生成分布与数据分布的 KL 上界。

4.3 视觉条件化扩散（策略建模）

策略学习条件分布 $p(A_t | O_t)$，修改去噪公式：

\[A_{t,k-1} = \alpha_k \left(A_{t,k} - \lambda_k \, \epsilon_\theta(O_t, A_{t,k}, k) + \mathcal{N}(0, \sigma_k^2 I)\right)\]

训练损失对应变为：

\[\mathcal{L} = \mathrm{MSE}\left(\epsilon_k, \epsilon_\theta(O_t, A_{t,0} + \epsilon_k, k)\right)\]

4.4 Receding Horizon 控制

在时间步 $t$，模型输入最近 $T_o$ 步观测，预测 $T_p$ 步动作，只执行前 $T_a$ 步：

$T_o$：观测窗口长度
$T_p$：动作预测长度
$T_a$：执行长度（每执行 $T_a$ 重新规划）

这样既能维持时序一致性，又能保持对新观测的响应。

4.5 网络结构选项

CNN + FiLM：观测特征对每层卷积做通道级调制。
Transformer：将观测嵌入输入交叉注意力层，动作 token 使用因果注意力以保持序列因果性。

5. Experiments & Results（结果表格、消融、失败案例）

总体表现：在 4 个基准 15 个任务上平均提升 46.9%，包括模拟与真实场景、2DoF 至 6DoF、刚体与流体任务。
真实机器人：在 Push-T 与多种双臂任务中展示稳健性能。
消融结论（文字版）：

较大的动作预测长度有助于平滑与多模态行为表达。
视觉条件化显著提升推理速度，并使端到端训练更可行。
训练稳定性优于隐式能量模型，减少负采样带来的不稳定。

6. Discussion（优势/局限）

优势

多模态动作分布建模自然，避免回归平均化。
直接预测动作序列，保持时间一致性。
训练稳定，超参数敏感度低。

局限

推理仍需多步去噪，实时性受步数 K 影响。
需要较大演示数据量以覆盖复杂动作分布。

7. My Takeaways（个人总结）

1) 用扩散模型来建模动作序列，比单步回归更适合高维连续控制。
2) 视觉条件化是关键工程点，能把扩散推理开销控制在可用范围。
3) Receding horizon 让“长规划+短反馈”兼得，是部署到真实机器人的重要桥梁。

References

[1] Cheng Chi et al. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion. arXiv:2303.04137v5, 2024.

Flying on Point Clouds with Reinforcement Learning

2026-01-13T00:00:00+08:00

Title + 摘要

本文研究如何用机载 3D 激光雷达点云与 sim-to-real 强化学习，实现四旋翼在复杂障碍环境中的低时延自主飞行。作者提出一种任务相关的点云表示：将历史点云在机体坐标系下按角度分区，用“最近点距离/未知区域距离”作为每个分区的数值输入，既保留细障碍感知，又降低维度以支持 RL 训练。策略以 50Hz 输出推力与角速度指令，结合动力学随机化与轻量级仿真，使仿真训练的策略能在真实无人机上绕过细小障碍并安全穿行。

1. Problem Setting（任务/场景/假设）

目标是让四旋翼仅依赖机载激光雷达与本体信息，在障碍环境中飞向目标点。策略学习为 RL：在部分可观测环境下，利用历史点云与状态估计，输出低层控制指令（推力与 bodyrates）。

2. Motivation & Key Challenges

传统栅格/占据图对细障碍易“被稀释”，难以保留小目标。
原始点云维度巨大，直接 RL 学习代价高且 sim-to-real 难。
高速飞行要求低时延控制，不宜重依赖规划与跟踪层级。

3. Method Overview（系统框图 + 文字解释）

核心是“点云分区表示 + MLP 策略”。点云通过历史帧对齐后分区编码，再与速度、姿态、目标方向等融合，输出推力与角速度。

History point clouds (k frames) -> body frame align
      -> angular partitions (n=3200) -> per-bin distance/unknown
      -> MLP encoder -> fusion with v, q, g, last action
      -> MLP policy -> thrust T + bodyrates ω

4. Core Components（逐模块，带公式/伪代码/维度）

4.1 点云分区表示（任务相关压缩）

将历史 k 帧点云对齐到当前时刻机体坐标系，把周围空间按角度划分为 n 个分区（n=3200，角分辨率约 4.5°）。每个分区取最近点距离，并截断到 10m。若分区无点，则用未知区域距离 $d_{unknown}$ 构造：

\[x_i = 20 - d_{unknown}, \quad 0 < d_{unknown} < 10\]

该表示既区分“已观测/未知”，又保留细障碍信息。

4.2 观测与动作

观测：点云表示（3200 维） + 速度、姿态、相对目标方向、上一步动作等。
动作：推力 $T$ 与角速度 $\omega = [\omega_x, \omega_y, \omega_z]$，50Hz 直接下发飞控。

4.3 奖励函数

奖励由多项组成：

\[r = r_{forward} + r_{thrust} + r_{smooth} + r_{maxspeed} + r_z + r_{ESDF} + r_{collision} + r_{yaw}\]

关键项包括：

\[r_{forward} = \|p_{goal} - p\| - \|p_{goal} - p_{last}\|\] \[r_{thrust} = \|T - g\|\] \[r_{smooth} = \|\omega\| + \|a - a_{last}\|\] \[r_{maxspeed} = -\exp(\max(0,\|v\| - v_{max})) + 1\] \[r_{ESDF} = \lambda (1 - e^{-kd})\] \[r_{yaw} = \frac{x_{body} \cdot v}{\|v\|}\]

其中 $d$ 为最近障碍距离，$x_{body}$ 为机体 x 轴方向。

4.4 网络结构

MLP 编码器将 3200 维外感知输入编码到 128 维隐状态，再与其他向量融合，输出 4 维动作。Actor/Critic 不共享权重。

5. Experiments & Results（结果与对比）

仿真评估显示该点云表示相比占据图输入更易于 PPO 从零开始学习，训练回报更稳定。对比 Fast-Planner、EGO-Planner 等系统，在不同速度约束下表现出更高成功率与更“容易”的轨迹。

6. Sim-to-Real 实验

真实飞行中可安全穿越箱体、电缆、稀疏树林等环境。作者强调：轻量级仿真 + 动力学随机化 + 雷达分区表示，使得策略能有效迁移到实体平台。

7. Discussion（优势/局限）

优势

点云表示兼顾细障碍感知与低维可学性。
低层控制接口（推力/角速度）带来更高频控制能力。
sim-to-real 成本低，训练效率高。

局限

远距离小障碍可能被“放大”近似，存在信息损失。
依赖稳定的本地状态估计与传感器标定。

8. Reproducibility Checklist（复现要点）

RL：PPO，1024 环境并行采样。
动力学随机化：推力/角速度扰动（约 ±10%/±8%），阻力系数大范围扰动。
点云分区：n=3200，历史 k 帧融合，10Hz 输入构造。
控制频率：50Hz 低层推力与 bodyrates。

9. My Takeaways（个人总结）

1) 对点云做“任务相关”的角度分区是关键，避免了通用下采样的盲区。
2) 让 RL 直接输出低层控制指令，可减少规划/跟踪延迟，适配高速飞行。
3) sim-to-real 的关键不是更复杂仿真，而是合理输入表示 + 适度随机化。

References

[1] Guangtong Xu et al. Flying on Point Clouds with Reinforcement Learning. arXiv:2503.00496, 2025.

World Model-based Perception for Visual Legged Locomotion

2026-01-13T00:00:00+08:00

Title + 摘要

本文提出 World Model-based Perception (WMP)，通过世界模型把高维视觉观测压缩为可用于控制的低维隐变量，从而避免“特权信息教师-学生”框架的性能上限和信息鸿沟。方法使用 RSSM 在仿真中学习可预测未来感知的隐状态，并把该隐状态输入到视觉 locomotion 策略中。作者强调世界模型即使只用仿真训练，也能在真实机器人上预测合理的轨迹感知，帮助策略做决策。实验覆盖 Slope、Stair、Gap、Climb、Crawl、Tilt 等地形，WMP 在仿真中接近 Teacher 的回报，在真机 A1 上可通过更困难的间隙与障碍（如 Gap 85cm、Climb 55cm、Crawl 22cm），整体表现优于学生策略与其它基线。

1. Problem Setting（任务/场景/假设）

将视觉四足移动建模为 POMDP：

\[\pi^* = \arg\max_\pi \mathbb{E}\left[\sum_{t=0}^\infty \gamma^t r(s_t, a_t)\right]\]

观测由本体感觉与深度图构成，特权信息只在仿真可得：

\[o_t := (o_t^{prop}, d_t)\] \[s_t := (o_t, s_t^{pri})\]

目标是在视觉部分可用、特权信息不可用的现实环境中，学习可迁移的控制策略。

2. Motivation & Key Challenges

直接从像素端到端强化学习数据效率低，且前向相机需要记忆历史观测来感知脚下地形。
特权学习的 teacher/student 有不可避免的性能差距，且特权信息设计难以泛化到复杂地形（例如 gap 边界、低矮遮挡）。
动物直觉上会建立“世界模型”进行预测，暗示用模型压缩历史观测可能更自然、更高效。

3. Method Overview（系统框图 + 文字解释）

WMP 采用“世界模型 + 策略”的单阶段学习。世界模型低频更新隐状态，策略高频输出动作。

Depth Image d_t + Proprio o_t^prop
        |        |
        |        +--> Encoder q_phi -> z_t (posterior)
        |                              |
        +--> RSSM f_phi --------------> h_t (deterministic)
                        |              |
                        +--> Prior p_phi(z_t | h_t)
                        +--> Decoder p_phi(o_t | h_t, z_t)

Policy: a_{t+i} ~ pi_theta(o_{t+i}^prop, stopgrad(h_t)), i in [0, k-1]
Critic: V_psi(o_{t+i}, stopgrad(h_t), s_{t+i}^pri)

关键点：世界模型每 k 个控制步更新一次，节省感知与计算开销，并让隐状态承担“记忆/预测”功能。

4. Core Components（逐模块，带公式/伪代码/维度）

4.1 RSSM 世界模型（结构与变量）

RSSM 由四部分组成：

\[h_t = f_\phi(h_{t-k}, z_{t-k}, a_{t-k:t-1})\] \[z_t \sim q_\phi(\cdot | h_t, o_t), \quad \hat{z}_t \sim p_\phi(\cdot | h_t)\] \[\hat{o}_t \sim p_\phi(\cdot | h_t, z_t)\]

$h_t$：确定性隐状态（GRU 更新）
$z_t$：随机隐状态（posterior）
$\hat{z}_t$：先验预测（prior）
$\hat{o}_t$：重建观测

4.2 RSSM 训练目标（重建 + KL）

对长度为 $L$ 的序列最小化：

\[\mathcal{L}(\phi) = \mathbb{E}\left[\sum_{t=nk}^{nk+L} -\ln p_\phi(o_t | z_t, h_t) + \beta \, \mathrm{KL}\left(q_\phi(\cdot|h_t,o_t) \,\|\, p_\phi(\cdot|h_t)\right)\right]\]

含义：

重建项确保 $z_t$ 包含足够观测信息；
KL 项对齐 posterior 与 prior，使模型可在缺失观测时进行开环预测。

4.3 策略学习（利用隐状态）

策略在每个世界模型周期内复用同一 $h_t$：

\[a_{t+i} \sim \pi_\theta(\cdot | o^{prop}_{t+i}, \mathrm{sg}(h_t)), \quad i \in [0, k-1]\]

critic 允许访问特权信息以稳定训练（非对称 actor-critic）：

\[v(s_{t+i}) = V_\psi(o_{t+i}, \mathrm{sg}(h_t), s^{pri}_{t+i})\]

4.4 关节控制（PD）

动作 $a_t$ 输出关节目标位置偏移，PD 控制为：

\[\tau = K_p(q_d - q) + K_d(\dot{q}_d - \dot{q})\]

其中 $q_d = q^{stand} + a_t$，$\dot{q}_d = 0$。

4.5 奖励设计（追踪 + 风格）

速度追踪奖励（简化的方向追踪）：

\[r_{tracking} = \exp\left(\min(v_{xy}^{cmd}, v_{xy}^{cmd} + 0.1) - v_{xy}^2 / \sigma\right)\]

风格奖励采用 AMP：

\[r_{style}(s, s') = \max\left[0, 1 - 0.25(D_\psi(s, s') - 1)^2\right]\]

判别器训练目标：

\[\min_\psi \; \mathbb{E}_{(s,s')\sim D_{ref}}(D_\psi-1)^2 + \mathbb{E}_{(s,s')\sim \pi_\theta}(D_\psi+1)^2 + \frac{w_{gp}}{2}\mathbb{E}_{D_{ref}}\|\nabla_\psi D_\psi\|^2\]

5. Experiments & Results（结果表格、消融、失败案例）

仿真结果：在 Slope、Stair、Gap、Climb、Tilt、Crawl 等地形上，WMP 的回报接近 Teacher，显著优于 Student 与 Blind。尤其在 Gap/Climb/Crawl 等需要提前感知的地形，Student 和 Blind 出现明显退化，WMP 仍保持稳定。

真机结果（Unitree A1）：

Gap 85cm（约 2.1x 机身长度）
Climb 55cm（约 2.2x 机身高度）
Crawl 22cm（约 0.8x 机身高度）

整体表明模型学到的隐状态可跨 sim-to-real，为控制提供有效的先验信息。

6. Ablations & Sensitivity

世界模型更新间隔 $k$：$k$ 越小仿真回报越高，但计算与感知成本更高；作者选择 $k=5$ 作为准确性与实时性的折中。
训练序列长度 $L$：约 1s 的历史就能达到较好效果，最终使用 6.4s 训练长度以覆盖长程依赖。
去除 depth 或 proprio：去除 depth 的 world model 相当于 blind 策略，性能显著下降，说明视觉建模是关键。

7. 真实世界预测分析

世界模型在真实数据上仍能预测合理的未来深度图像，尤其在关键障碍前表现良好，暗示 latent-space 的预测具有一定 sim-to-real 泛化能力。

8. Discussion（优势/局限）

优势

单阶段训练，避免 teacher/student 信息鸿沟。
世界模型提供低维、可预测的隐状态，有效解决部分可观测问题。
sim-to-real 迁移效果强，适用于复杂地形。

局限

世界模型仍完全依赖仿真数据，现实差异可能导致预测偏差。
模型频率与计算开销仍是部署瓶颈（需权衡 k）。
没有使用模型进行 imagination rollout，训练效率可能仍受限于仿真采样。

9. My Takeaways（个人总结）

1) 视觉 locomotion 的关键不是更强的 CNN，而是“能预测的隐状态”来做时间对齐与先验推断。
2) RSSM 的 KL 约束是保证开环预测能力的核心，实质上在逼近“短期世界模型”。
3) 相比特权学习，WMP 把“记忆+预测”显式化，更贴近动物认知机制。
4) 若要进一步提升，混合真实数据训练世界模型或引入基于模型的 imagination 可能是下一个方向。

References

[1] Hang Lai et al. World Model-based Perception for Visual Legged Locomotion. arXiv:2409.16784v1, 2024.

Spatially-Enhanced Recurrent Memory for Long-Range Mapless Navigation

2026-01-12T00:00:00+08:00

Title + 摘要

本文研究长程无地图导航的核心难题：在仅有前向深度观测的条件下，如何在动态视角变化中形成稳定的空间记忆，从而实现规划与避障。作者指出传统 RNN（LSTM/GRU）擅长时间记忆却不擅长空间配准，导致对历史观测的空间对齐能力不足，难以形成长期空间表征。为此提出 Spatially-Enhanced Recurrent Unit (SRU)，在标准门控循环单元中引入空间变换项，使其隐式学习视角变化下的空间对齐。基于 SRU，作者构建双层空间注意力 + SRU 的端到端 RL 架构，并结合深度编码器预训练、深度噪声模型、DML 与时序一致 Dropout 等训练策略，实现更稳定的长程导航训练。实验表明 SRU 在多种环境下成功率显著提升（整体约 +23.5%，对 EMHP 与堆叠历史观测基线提升约 29.6% 与 105.0%），并在真实场景中实现零样本 sim-to-real 部署。本文对“隐式记忆能否替代显式建图”的问题给出强有力的工程化答案。

1. Problem Setting（任务/场景/假设）

任务是长程、无地图导航。机器人仅能获取自身视角的深度图与少量本体信息，在未知环境中到达目标。形式化为 POMDP：

\[(S, A, T, R, O, Z, \gamma)\]

其中：

$S$ 为状态集合，$A$ 为动作空间
$T$ 为状态转移，$R$ 为奖励
$O$ 为观测集合，$Z$ 为观测模型
$\gamma$ 为折扣因子

由于观测是自我坐标系的局部深度图，单帧无法充分反映全局环境，必须依靠序列记忆形成可规划的隐式地图。

2. Motivation & Key Challenges（为什么难）

纯端到端 RNN 虽能捕捉时间依赖，但难以进行空间配准，无法把不同视角下的观测对齐成一致空间表征。
传统显式建图带来系统延迟与额外复杂度，不适合高速或复杂动力学平台。
长程稀疏奖励会导致“晚出发”策略或过拟合局部策略，需要额外正则化。

3. Method Overview（系统框图 + 文字解释）

架构采用“感知编码 + 双层注意力 + SRU 记忆 + MLP 动作头”。

Depth Image --> Encoder (RegNet+FPN) --> Self-Attn --> Cross-Attn --> SRU --> MLP --> Action
                                  ^                       |
                                  |                       +-- Proprioceptive state + Goal

核心思想：注意力机制压缩并选择关键空间特征，SRU 负责长期隐式地图记忆与空间对齐，MLP 输出线速度与角速度控制指令。

4. Core Components（逐模块，带公式/伪代码/维度）

4.1 Perception / Encoder（输入输出维度）

输入为前向深度图 $I_t$，经过 RegNet + FPN 得到特征图：

\[F_t \in \mathbb{R}^{C \times H \times W}\]

其中 $C$ 为通道数，$H,W$ 为空间尺寸。随后经自注意力与交叉注意力压缩为：

\[\hat{F}_t \in \mathbb{R}^{C \times 1}\]

变量表

符号	含义	维度
$I_t$	深度图观测	$H_0 \times W_0$
$F_t$	编码特征图	$C \times H \times W$
$\hat{F}_t$	压缩特征	$C \times 1$

4.2 Spatial Attention（Self-Attn + Cross-Attn）

先对视觉特征做空间自注意力，再用机器人状态作为 Query 做交叉注意力压缩：

\[\text{Attn}(Q,K,V) = \text{softmax}\left(\frac{QK^\top}{\sqrt{d}}\right)V\]

Self-Attn：$Q=K=V$ 来自 $F_t$ 的空间 token，增强全局空间关系。
Cross-Attn：$Q$ 来自本体状态 $o^{prop}_t$ 与目标位置 $p_t$，$K,V$ 来自视觉 token，用于“状态引导”的视觉压缩。

变量表

符号	含义	维度
$Q,K,V$	注意力输入	$d \times n$
$o^{prop}_t$	本体状态	$d_{prop}$
$p_t$	相对目标	$d_{goal}$

4.3 Memory (SRU)（对比 LSTM/GRU 的关键改动）

SRU 在传统门控结构中引入空间变换项 $s_t$，用于隐式对齐观测视角：

\[s_t = W_{xs} x_t + b_s\]

SRU-LSTM 的核心更新为：

\[g_t = \tanh\left(s_t \odot W_{xg} x_t + W_{hg} h_{t-1} + b_g\right)\]

SRU-GRU 的候选状态为：

\[\tilde{h}_t = \tanh\left(s_t \odot W_{xh} x_t + W_{hh}(r_t \odot h_{t-1}) + b_h\right)\]

SRU-Ours 在此基础上增加门控修正以缓解饱和：

\[r_t = i_t \odot \left(1 - (1 - f_t)^2\right) + (1 - i_t) \odot f_t^2\] \[c_t = r_t \odot c_{t-1} + (1 - r_t) \odot g_t\]

直觉：$s_t$ 作为“视角变换因子”，让隐状态更新时显式考虑空间对齐，减少“把不同视角直接叠加”的误差。

4.4 RL Training Design（奖励、dropout、DML、非对称 actor-critic）

总体奖励：

\[r_t = \alpha_1 r_t^{task} - \alpha_2 r_t^{reg} - \alpha_3 r_t^{pen}\]

其中任务奖励采用稀疏时间窗 + 随机检查机制：

\[r_t^{task} = \frac{\mathbf{1}(t > T_{max}-T_r \;\lor\; \text{random} < \delta_{check})}{1 + \|p_t\|_\sigma}\]

动作平滑正则：

\[a_t^m = \lambda a_{t-1} + (1-\lambda) a_t\] \[r_t^{reg} = \beta_1 \|a_t - a_t^m\| + \beta_2 \|j_t^{acc}\|\]

惩罚项：

\[r_t^{pen} = \eta_1 \mathbf{1}(\text{collision}) + \eta_2 \max(0, |\theta_t| - \theta_{safe})\]

训练策略

Asymmetric Actor-Critic：actor 接收噪声深度观测，critic 使用更稳定的状态信息，提升训练稳定性。
DML (Deep Mutual Learning)：双策略互蒸馏，使用 KL 散度作为额外正则，抑制早期陷入次优策略。
TC-Dropout：保持时间维度一致的 dropout mask，稳定序列记忆训练。

5. Experiments & Results（结果表格、消融、失败案例）

结果概览：SRU 系列在多环境成功率显著提升，尤其在需要长程记忆的场景。

Model	Maze	Pillar	Stair	Pit	Overall
GRU	68.1	73.6	35.7	66.7	61.0
LSTM	70.3	78.2	33.1	72.7	63.5
SRU-GRU	73.1	78.8	74.1	74.8	75.2
SRU-LSTM	75.9	76.7	79.3	74.1	76.5
SRU-Ours	76.0	81.0	82.8	75.6	78.9

失败案例（论文描述）

LSTM 在迷宫中反复进入死胡同，无法回忆已走过的路径。
LSTM 在坑洞环境中无法记住视野外的坑洞位置，导致再次掉入。

6. Discussion（优势/局限）

优势

SRU 提升空间记忆能力，在长程导航中显著提高成功率。
无需显式建图，降低系统延迟与复杂度。
结合注意力与 DML/TC-Dropout，训练更稳定。

局限

仍受循环记忆衰减影响，超长时间跨度记忆可能不足。
依赖深度观测与预训练编码器，感知噪声仍会影响性能。

7. Reproducibility Checklist（超参数、训练设置、代码结构、硬件）

环境：NVIDIA IsaacLab，包含迷宫、随机柱、楼梯、坑洞等场景
观测：前向深度传感器（FoV 105° x 78°，10m 量程）
控制频率：导航策略 5 Hz，底层控制 50 Hz
策略：PPO + Asymmetric Actor-Critic
正则化：DML、TC-Dropout
预训练：RegNet+FPN 深度编码器，TartanAir 合成深度 + 噪声模型

8. My Takeaways（个人总结）

1) 在“隐式建图”问题上，单纯换 RNN 结构难以解决空间对齐问题，但引入显式空间变换项能显著改善。 2) 注意力机制不仅压缩信息量，更重要的是让状态驱动视觉选择，提升记忆效率。 3) DML 与 TC-Dropout 对序列学习非常关键，避免记忆学习早期崩坏。 4) 若我做长程导航/探索任务，可优先尝试“注意力 + SRU + 稀疏奖励 + DML”组合。

References

[1] Fan Yang et al. Spatially-Enhanced Recurrent Memory for Long-Range Mapless Navigation via End-to-End Reinforcement Learning. arXiv:2506.05997v2, 2025.

Project Retrospective: Grasping in Clutter

2024-11-06T00:00:00+08:00

Background

Bin picking in a cluttered scene with partial observability.

Goals

Achieve 80 percent success rate on 20 objects.
End-to-end pipeline with perception and grasping.

Approach

Train grasp proposals in simulation.
Fine-tune on real data with domain randomization.
Integrate with a motion planner and force feedback.

Results

Reached 76 percent in the lab with stable runtime.

Lessons Learned

Dataset bias dominated early failures.
Calibration drift required weekly checks.

Next Actions

Expand object set and improve camera poses.

Robot Learning Skill Tree and Roadmap

2024-11-05T00:00:00+08:00

Skill Tree

Robot Learning: policy gradients, offline RL, model-based RL
Motion Planning: sampling-based, optimization-based, constraints
Control: PID, LQR, MPC
ROS2: nodes, TF, launch, tooling
Sim Platforms: Isaac Sim/Lab, Mujoco, Gazebo
MLOps: data/versioning, training pipelines, eval dashboards

Suggested Learning Path

Control fundamentals and dynamics basics.
Motion planning algorithms and constraints.
Deep RL foundations and PPO/SAC practice.
Sim2real and domain randomization.
System integration in ROS2.

Domain Randomization for Sim2Real

2024-11-02T00:00:00+08:00

Key Concepts

Randomize visual, dynamics, and sensor parameters.
Use curriculum to expand ranges gradually.

Common Pitfalls

Randomization too wide makes policy underfit.
Mismatch between randomized assets and target robot.

Practical Checklist

Start with camera and lighting randomization.
Add dynamics later (mass, friction, delay).
Track real-world success rate per setting.

Math Note

Reward shaping often uses: $r_t = \alpha r_{task} + \beta r_{stability}$

PPO Tricks for Stable Training

2024-11-01T00:00:00+08:00

Key Concepts

Clip ratio and value loss balance.
Advantage normalization and reward scaling.
Early stopping based on KL divergence.

Common Pitfalls

Too large learning rate causes policy collapse.
Value function overfits when minibatches are too small.

Practical Checklist

Normalize advantages per batch.
Track KL and stop epochs if it spikes.
Use entropy bonus to avoid premature convergence.

Quick Reference

# Pseudocode for PPO update loop
for epoch in range(k_epochs):
    logp_new = policy(obs, act)
    ratio = exp(logp_new - logp_old)
    loss_clip = -min(ratio * adv, clip(ratio, 1-eps, 1+eps) * adv)
    loss = loss_clip + vf_coef * value_loss - ent_coef * entropy