当前位置：首页 > news >正文

地平线最新提出HorizonDrive：自动驾驶世界模型新范式、实现分钟级自回归生成

news 2026/6/10 1:54:39

点击下方卡片关注「3D视觉工坊」公众号选择星标干货第一时间送达一作投稿授权 | 编辑3D视觉工坊自动驾驶世界模型的价值不只是生成一段逼真的驾驶视频而是作为闭环可交互的环境持续响应自车轨迹、交通参与者和地图条件的变化。只有当模型能稳定地向未来推演planner 才能在其中反复试错长尾场景构造和闭环评测也才真正有意义。但这恰恰是自动驾驶世界模型最难的地方。短视频可以依赖干净的历史帧续写一旦进入自回归生成模型就必须在自己生成的结果上继续生成。前一段视频里的细小误差会被带到下一段里继续放大。几轮之后车辆和道路的关系可能开始漂移动态物体变得不稳定整个场景逐渐崩坏。HorizonDrive和现有范式的比较为了解决误差累积近期不少方法会让 student 在蒸馏阶段模拟自回归 rollout学习如何从自己的预测误差中恢复。这类 Self-Forcing 思路很自然既然推理时模型会看到自己的错误那训练时也应该让它提前适应这些错误。不过地平线团队在 HorizonDrive 中发现仅仅把纠错能力交给 student 去学并不足以支撑真正长时间的交互生成。关键在于student 能学到什么很大程度上取决于 teacher 能提供什么。如果 teacher 自身只能稳定监督较短窗口那么 student 再怎么训练也很难获得可靠的长程生成能力。因此HorizonDrive 重新审视了长视频蒸馏流程提出了一个直接但关键的思路先提升 teacher再教 student。它先通过 Scheduled Rollout Recovery 增强 teacher 的自回归恢复能力再通过 Teacher Rollout DMD 让 student 在更长轨迹上学习误差修复和动态一致性。这样一来模型可以在不显著增加显存开销的情况下实现分钟级的可控长时序驾驶视频生成。实验结果也验证了这一思路的有效性。相比代表性基线方法HorizonDrive 将 FID 降低了 52%FVD 降低了 37%同时将轨迹精度提升了 21%。更关键的是在数十轮交互生成后HorizonDrive 的视频质量仍然能够接近非自回归模型单轮的生成效果。论文标题HorizonDrive: Self-Corrective Autoregressive World Model for Long-horizon Driving Simulation论文链接https://arxiv.org/abs/2605.11596项目主页https://zcliangyue.github.io/HorizonDrive一、三阶段训练范式HorizonDrive的三阶段训练范式1.1 可控自动驾驶世界模型HorizonDrive 的第一步是训练一个能够遵循动静态控制条件和自车行为、生成逼真画面的世界模型。如上图中 stage1 所示模型接收 HD Map、3D Bbox 以及 Action能够生成符合控制的短时序视频。具体来说HorizonDrive 在 video-VAE 的 latent 空间里建模。给定长度为的历史上下文以及未来帧的驾驶控制模型每一步预测下一段帧视频块训练时每个 clip 被切成帧条件窗口帧生成块条件 latent 保持干净噪声待生成块加噪后用 Flow Matching 监督。自车动作通过 AdaLN 注入地图与 bbox 则作为 layout token 加入。核心训练目标为其中是模型预测的速度场是噪声与真实 latent 的插值。训练完成后得到基础可控世界模型但由于它只在干净 GT 历史上训练直接自回归 rollout 会遭遇 exposure bias——每轮都在自己预测的误差上继续生成漂移迅速累积。1.2 增强教师的抗误差能力第二步叫做 Scheduled Rollout RecoverySRR。HorizonDrive 没有一上来就只盯着 student 做抗漂移训练而是增加了额外的一步训练让前面的可控世界模型具备修复误差的能力这一步的难点是如何让模型看见自己生成的误差并提供有效的监督。具体来说HorizonDrive 先让基础模型自回归 rollout步把预测误差“存档”下来。每一步在固定长度为的历史 buffer 上生成帧其中最终得到误差逐步累积的 rollout 轨迹。原本模型的训练目标是根据 GT 条件帧续写SRR 将其替换为用 rollout 预测作为条件仍用 GT 作为监督目标这就改变了模型的“知识范围”从前只见过干净的好数据现在则见到了自己生成的差数据。但这还不够。如果强行拼接误差和真值会导致视频的连续性被破坏。为此HorizonDrive 在生成边界附近引入 pred-to-GT 混合窗口半径在 latent 空间做线性平滑过渡下图 a其中在过渡窗口内从 1 线性衰减到 0。训练初期取让模型先学会从较大偏差中直接恢复随着训练推进逐渐增大任务转向更细粒度的连续修正。在带有布局控制的情况下这种做法能够最大化地利用预测结果与 GT 的结构相似性同时最真实地模拟出推理产生的误差。相比于常见的手动模拟误差SRR 能够处理的误差特性更加丰富同时兼顾了语义性和通用性下图 b 和 c。Scheduled Rollout Recovery 方法细节在此基础上HorizonDrive 还提供了两个洞察不连续修复比连续修复更简单如果不要求连续模型可以直接生成和前面完全无关但高质量的场景这比兼顾连续性和质量要简单得多。因此HorizonDrive 采取了一种课程学习的方式让平滑过渡的窗口由小变大提升了模型的收敛性。rollout 距离越长误差语义性越强HorizonDrive 通过误差统计分析发现在不同场景之间前期的误差是比较相似的但到了后期就呈现出特异性。随着训练进行模型应该越来越连续也就应该从特异性的误差学习收敛到更通用的误差。经过 SRR 训练基础模型被升级为具备 rollout 能力的教师模型——它能在自身预测的历史条件下持续生成并从中恢复出更高质量的未来。这个稳定的 rollout 教师也是后续 TRD 蒸馏阶段的起点。1.3 蒸馏出可交互的学生模型已经能够 rollout 十几轮稳定性相比原始基模型显著提升但仍受困于推理速度慢、监督信号短的问题。为此HorizonDrive 引入了第三个阶段Teacher Rollout DMD简称 TRD。TRD 的思路可以概括成一句话老师负责看得更远、更稳学生负责迈得更快、更细。TRD 从同时初始化教师与学生教师冻结仅更新学生参数。二者共享相同的历史窗口长度但生成块大小不同——教师用更长的学生用更短的。前面这些设置和 Self-Forcing 是一致的。让 TRD 与众不同的是它可以借助 teacher 的自回归能力在超过单个教师生成块的长轨迹上进行监督。而这同样得益于的长时序 rollout 能力。具体来说师生在固定窗口下各自自回归 rollout。学生每步生成帧教师以更大的在相同轨迹上逐步 rollout提供稳定的长程监督当学生累积输出覆盖一个教师块长度时就在对应区间上做分布匹配蒸馏。基础 DMD 通过比较 teacher 与 student 的 score 来对齐生成分布其中是对学生生成 latent 重新加噪后的样本来自冻结教师来自可训练 critic。TRD 进一步引入 noise-truncated CFG只在较低噪声级别时加入 CFG 增强避免长 rollout 中信号过饱和。完整 TRD 目标在 DMD 基础上附加一项训练时从高水平逐步衰减使优化重心从条件可控性过渡到视觉细节。这样做有两个好处。第一student 不是只学一小段“短片技巧”而是在轮自回归 rollout 中持续暴露于自身预测误差实践中根据数据集的样本长度来灵活调节学着应对部署时会遇到的漂移。第二teacher 不需要为了教更长的未来而无限扩窗口。它同样通过固定窗口一步步向前 rollout每步内存开销有界学生则以更小的窗口、更少的 denoise 步数如 4 步实现实时交互。二、方法效果2.1 长视频基线对比论文在 nuScenes 上对比了代表性的强长时序 baselineHorizonDrive 在视觉指标FID、FVD、Vbench和几何指标ARE、DTW上都显著领先于基线。和现有世界模型相比HorizonDrive 显著提升了长视频画面质量和几何精度这表明它不只是画面质量提高了在长时序生成里对道路结构、物体几何和自车运动的一致性保持也变得更好。论文中的定性对比则更加直接地展示了 HorizonDrive 在几何结构和画面质量上的双重优势nuScenes 对比结果1在附录中还有更多对比。不同场景下HorizonDrive 的长视频质量也保持着明显优势。nuScenes对比结果2nuScenes对比结果32.2 分钟级长视频在 nuScenes 上评测长度受数据集本身限制大约落在 20 秒级别但在自采数据上论文进一步展示了 30s 甚至接近一分钟的连续自回归生成在多样化的天气、场景、运动和交互上实现了扩展。论文主页中还有更丰富的视频样例可以更直观地展示 HorizonDrive 在多样化场景中的长时序稳定性。自建数据集对比结果1自建数据集对比结果2一分钟长视频效果HorizonDrive 的长时序稳定生成结果表明模型显著缓解了自身误差累积带来的影响能够在较长时间内维持稳定的 rollout 质量从而使长时间复杂交互成为可能。2.3 闭环仿真HorizonDrive 也展示了和 planner 的闭环交互。将HorizonDrive用于闭环仿真在这个循环里planner 根据模型最新生成的画面给出下一步自车轨迹HorizonDrive 再把这个轨迹和地图、车辆布局等条件编码回来继续生成下一段画面。经过几轮交互之后生成画面和真实画面产生了错位因为 planner 做出了与真值不同的决策。这非常有利于对 planner 的轨迹做更完整的评估。论文也给出了模型的推理速度在单卡 NVIDIA RTX 5090 上HorizonDrive 使用 4-step student denoiser每步自回归生成 10 帧256×512 分辨率下约 5.6 FPS384×768 下约 1.7 FPS。三、结语HorizonDrive走通了一条看起来很难的路不依赖显式 3D、不依赖额外 cache 或 memory 机制仅通过一套自纠正的训练范式就能让模型处理复杂的误差累积达到长时序生成的效果。当然论文也留下了继续往前走的空间。比如当前 SRR 仍是离线训练未来如果世界模型能在交互轨迹中继续在线提升自己的 rollout 鲁棒性误差修复的上限还会更高。本文仅做学术分享如有侵权请联系删文。3D视觉方向论文辅导来啦可辅导SCI期刊、CCF会议、本硕博毕设、核心期刊等。添加微信cv3d001备注姓名方向单位邀请入群。

查看全文

http://www.rkmt.cn/news/1394997.html