PPO Tricks for Stable Training

less than 1 minute read

Key Concepts

Clip ratio and value loss balance.
Advantage normalization and reward scaling.
Early stopping based on KL divergence.

Common Pitfalls

Too large learning rate causes policy collapse.
Value function overfits when minibatches are too small.

Practical Checklist

Normalize advantages per batch.
Track KL and stop epochs if it spikes.
Use entropy bonus to avoid premature convergence.

Quick Reference

# Pseudocode for PPO update loop
for epoch in range(k_epochs):
    logp_new = policy(obs, act)
    ratio = exp(logp_new - logp_old)
    loss_clip = -min(ratio * adv, clip(ratio, 1-eps, 1+eps) * adv)
    loss = loss_clip + vf_coef * value_loss - ent_coef * entropy

Share on

X Facebook LinkedIn Bluesky

World Model-based Perception for Visual Legged Locomotion

2 minute read

Title + 摘要本文提出 World Model-based Perception (WMP)，通过世界模型把高维视觉观测压缩为可用于控制的低维隐变量，从而避免“特权信息教师-学生”框架的性能上限和信息鸿沟。方法使用 RSSM 在仿真中学习可预测未来感知的隐状态，并把该隐状态输入到视觉 locomotion...

Flying on Point Clouds with Reinforcement Learning

1 minute read

Title + 摘要本文研究如何用机载 3D 激光雷达点云与 sim-to-real 强化学习，实现四旋翼在复杂障碍环境中的低时延自主飞行。作者提出一种任务相关的点云表示：将历史点云在机体坐标系下按角度分区，用“最近点距离/未知区域距离”作为每个分区的数值输入，既保留细障碍感知，又降低维度以支持 RL 训练。策...

Diffusion Policy: Visuomotor Policy Learning via Action Diffusion