2 minute read

Title + 摘要

本文研究长程无地图导航的核心难题:在仅有前向深度观测的条件下,如何在动态视角变化中形成稳定的空间记忆,从而实现规划与避障。作者指出传统 RNN(LSTM/GRU)擅长时间记忆却不擅长空间配准,导致对历史观测的空间对齐能力不足,难以形成长期空间表征。为此提出 Spatially-Enhanced Recurrent Unit (SRU),在标准门控循环单元中引入空间变换项,使其隐式学习视角变化下的空间对齐。基于 SRU,作者构建双层空间注意力 + SRU 的端到端 RL 架构,并结合深度编码器预训练、深度噪声模型、DML 与时序一致 Dropout 等训练策略,实现更稳定的长程导航训练。实验表明 SRU 在多种环境下成功率显著提升(整体约 +23.5%,对 EMHP 与堆叠历史观测基线提升约 29.6% 与 105.0%),并在真实场景中实现零样本 sim-to-real 部署。本文对“隐式记忆能否替代显式建图”的问题给出强有力的工程化答案。

1. Problem Setting(任务/场景/假设)

任务是长程、无地图导航。机器人仅能获取自身视角的深度图与少量本体信息,在未知环境中到达目标。形式化为 POMDP:

\[(S, A, T, R, O, Z, \gamma)\]

其中:

  • $S$ 为状态集合,$A$ 为动作空间
  • $T$ 为状态转移,$R$ 为奖励
  • $O$ 为观测集合,$Z$ 为观测模型
  • $\gamma$ 为折扣因子

由于观测是自我坐标系的局部深度图,单帧无法充分反映全局环境,必须依靠序列记忆形成可规划的隐式地图。

2. Motivation & Key Challenges(为什么难)

  • 纯端到端 RNN 虽能捕捉时间依赖,但难以进行空间配准,无法把不同视角下的观测对齐成一致空间表征。
  • 传统显式建图带来系统延迟与额外复杂度,不适合高速或复杂动力学平台。
  • 长程稀疏奖励会导致“晚出发”策略或过拟合局部策略,需要额外正则化。

3. Method Overview(系统框图 + 文字解释)

架构采用“感知编码 + 双层注意力 + SRU 记忆 + MLP 动作头”。

Depth Image --> Encoder (RegNet+FPN) --> Self-Attn --> Cross-Attn --> SRU --> MLP --> Action
                                  ^                       |
                                  |                       +-- Proprioceptive state + Goal

核心思想:注意力机制压缩并选择关键空间特征,SRU 负责长期隐式地图记忆与空间对齐,MLP 输出线速度与角速度控制指令。

4. Core Components(逐模块,带公式/伪代码/维度)

4.1 Perception / Encoder(输入输出维度)

输入为前向深度图 $I_t$,经过 RegNet + FPN 得到特征图:

\[F_t \in \mathbb{R}^{C \times H \times W}\]

其中 $C$ 为通道数,$H,W$ 为空间尺寸。随后经自注意力与交叉注意力压缩为:

\[\hat{F}_t \in \mathbb{R}^{C \times 1}\]

变量表

符号 含义 维度
$I_t$ 深度图观测 $H_0 \times W_0$
$F_t$ 编码特征图 $C \times H \times W$
$\hat{F}_t$ 压缩特征 $C \times 1$

4.2 Spatial Attention(Self-Attn + Cross-Attn)

先对视觉特征做空间自注意力,再用机器人状态作为 Query 做交叉注意力压缩:

\[\text{Attn}(Q,K,V) = \text{softmax}\left(\frac{QK^\top}{\sqrt{d}}\right)V\]
  • Self-Attn:$Q=K=V$ 来自 $F_t$ 的空间 token,增强全局空间关系。
  • Cross-Attn:$Q$ 来自本体状态 $o^{prop}_t$ 与目标位置 $p_t$,$K,V$ 来自视觉 token,用于“状态引导”的视觉压缩。

变量表

符号 含义 维度
$Q,K,V$ 注意力输入 $d \times n$
$o^{prop}_t$ 本体状态 $d_{prop}$
$p_t$ 相对目标 $d_{goal}$

4.3 Memory (SRU)(对比 LSTM/GRU 的关键改动)

SRU 在传统门控结构中引入空间变换项 $s_t$,用于隐式对齐观测视角:

\[s_t = W_{xs} x_t + b_s\]

SRU-LSTM 的核心更新为:

\[g_t = \tanh\left(s_t \odot W_{xg} x_t + W_{hg} h_{t-1} + b_g\right)\]

SRU-GRU 的候选状态为:

\[\tilde{h}_t = \tanh\left(s_t \odot W_{xh} x_t + W_{hh}(r_t \odot h_{t-1}) + b_h\right)\]

SRU-Ours 在此基础上增加门控修正以缓解饱和:

\[r_t = i_t \odot \left(1 - (1 - f_t)^2\right) + (1 - i_t) \odot f_t^2\] \[c_t = r_t \odot c_{t-1} + (1 - r_t) \odot g_t\]

直觉:$s_t$ 作为“视角变换因子”,让隐状态更新时显式考虑空间对齐,减少“把不同视角直接叠加”的误差。

4.4 RL Training Design(奖励、dropout、DML、非对称 actor-critic)

总体奖励:

\[r_t = \alpha_1 r_t^{task} - \alpha_2 r_t^{reg} - \alpha_3 r_t^{pen}\]

其中任务奖励采用稀疏时间窗 + 随机检查机制:

\[r_t^{task} = \frac{\mathbf{1}(t > T_{max}-T_r \;\lor\; \text{random} < \delta_{check})}{1 + \|p_t\|_\sigma}\]

动作平滑正则:

\[a_t^m = \lambda a_{t-1} + (1-\lambda) a_t\] \[r_t^{reg} = \beta_1 \|a_t - a_t^m\| + \beta_2 \|j_t^{acc}\|\]

惩罚项:

\[r_t^{pen} = \eta_1 \mathbf{1}(\text{collision}) + \eta_2 \max(0, |\theta_t| - \theta_{safe})\]

训练策略

  • Asymmetric Actor-Critic:actor 接收噪声深度观测,critic 使用更稳定的状态信息,提升训练稳定性。
  • DML (Deep Mutual Learning):双策略互蒸馏,使用 KL 散度作为额外正则,抑制早期陷入次优策略。
  • TC-Dropout:保持时间维度一致的 dropout mask,稳定序列记忆训练。

5. Experiments & Results(结果表格、消融、失败案例)

结果概览:SRU 系列在多环境成功率显著提升,尤其在需要长程记忆的场景。

Model Maze Pillar Stair Pit Overall
GRU 68.1 73.6 35.7 66.7 61.0
LSTM 70.3 78.2 33.1 72.7 63.5
SRU-GRU 73.1 78.8 74.1 74.8 75.2
SRU-LSTM 75.9 76.7 79.3 74.1 76.5
SRU-Ours 76.0 81.0 82.8 75.6 78.9

失败案例(论文描述)

  • LSTM 在迷宫中反复进入死胡同,无法回忆已走过的路径。
  • LSTM 在坑洞环境中无法记住视野外的坑洞位置,导致再次掉入。

6. Discussion(优势/局限)

优势

  • SRU 提升空间记忆能力,在长程导航中显著提高成功率。
  • 无需显式建图,降低系统延迟与复杂度。
  • 结合注意力与 DML/TC-Dropout,训练更稳定。

局限

  • 仍受循环记忆衰减影响,超长时间跨度记忆可能不足。
  • 依赖深度观测与预训练编码器,感知噪声仍会影响性能。

7. Reproducibility Checklist(超参数、训练设置、代码结构、硬件)

  • 环境:NVIDIA IsaacLab,包含迷宫、随机柱、楼梯、坑洞等场景
  • 观测:前向深度传感器(FoV 105° x 78°,10m 量程)
  • 控制频率:导航策略 5 Hz,底层控制 50 Hz
  • 策略:PPO + Asymmetric Actor-Critic
  • 正则化:DML、TC-Dropout
  • 预训练:RegNet+FPN 深度编码器,TartanAir 合成深度 + 噪声模型

8. My Takeaways(个人总结)

1) 在“隐式建图”问题上,单纯换 RNN 结构难以解决空间对齐问题,但引入显式空间变换项能显著改善。 2) 注意力机制不仅压缩信息量,更重要的是让状态驱动视觉选择,提升记忆效率。 3) DML 与 TC-Dropout 对序列学习非常关键,避免记忆学习早期崩坏。 4) 若我做长程导航/探索任务,可优先尝试“注意力 + SRU + 稀疏奖励 + DML”组合。

References

  • [1] Fan Yang et al. Spatially-Enhanced Recurrent Memory for Long-Range Mapless Navigation via End-to-End Reinforcement Learning. arXiv:2506.05997v2, 2025.

Updated: